Compute Engine 提供了可添加到虚拟机的图形处理单元 (GPU)。您可以使用这些 GPU 加速虚拟机上的特定工作负载,例如机器学习和数据处理。
本文档简要介绍了创建挂接了 GPU 的虚拟机所需的步骤。
如需详细了解 Compute Engine 上的 GPU,请参阅 GPU 简介。
选择 GPU 型号
如需查看可用的 GPU 型号列表,请参阅 GPU 平台。还要记下所选 GPU 型号支持的机器类型。
对于每个型号,您可能还需要查看以下内容:
限制
除了适用于所有配备 GPU 的虚拟机的限制之外,每种挂接了 GPU 的机器系列都有以下限制:
A4 虚拟机
A3 Ultra 虚拟机
- 您只能使用 A3 Ultra 机器类型支持的预配选项来请求容量。
- 使用 A3 Ultra 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A3 Ultra 机器类型。
- 不能在使用 A3 Ultra 机器类型的虚拟机上使用永久性磁盘(区域级或可用区级)。
- A3 Ultra 机器类型仅在 Emerald Rapids CPU 平台上提供。
- 您无法将现有虚拟机的机器类型更改为 A3 Ultra 机器类型。您只能创建新的 A3 Ultra虚拟机。使用 A3 Ultra 机器类型创建虚拟机后,您无法更改机器类型。
- A3 Ultra 机器类型不支持单租户。
- 不能在 A3 Ultra 机器类型上运行 Windows 操作系统。
A3 Mega 虚拟机
- 您只能使用 A3 Mega 机器类型支持的预配选项来请求容量。
- 使用 A3 Mega 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A3 Mega 机器类型。
- 不能在使用 A3 Mega 机器类型的虚拟机上使用区域级永久性磁盘。
- A3 Mega 机器类型仅在 Sapphire Rapids CPU 平台上提供。
- 您无法将现有虚拟机的机器类型更改为 A3 Mega 机器类型。您只能创建新的 A3 Mega 虚拟机。使用 A3 Mega 机器类型创建虚拟机后,您无法更改机器类型。
- A3 Mega 机器类型不支持单租户。
- 不能在 A3 Mega 机器类型上运行 Windows 操作系统。
A3 High 虚拟机
- 您只能使用 A3 High 机器类型支持的预配选项来请求容量。
- 使用 A3 High 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A3 High 机器类型。
- 不能在使用 A3 High 机器类型的虚拟机上使用区域级永久性磁盘。
- A3 High 机器类型仅在 Sapphire Rapids CPU 平台上提供。
- 您无法将现有虚拟机的机器类型更改为 A3 High 机器类型。您只能创建新的 A3 High 虚拟机。使用 A3 High 机器类型创建虚拟机后,您无法更改机器类型。
- A3 High 机器类型不支持单租户。
- 不能在 A3 High 机器类型上运行 Windows 操作系统。
- 对于
a3-highgpu-1g
、a3-highgpu-2g
和a3-highgpu-4g
机器类型,存在以下限制:-
对于这些机器类型,您必须使用 Spot 虚拟机或利用动态工作负载调度器 (DWS) 的功能(例如 MIG 中的规模调整请求)来创建虚拟机。如需详细了解任一选项,请查看以下内容:
- 如需创建 Spot 虚拟机,请在创建加速器优化虚拟机时将预配模型设置为
SPOT
。 - 如需在 MIG 中创建使用 DWS 的规模调整请求,请参阅创建具有 GPU 虚拟机的 MIG。
- 如需创建 Spot 虚拟机,请在创建加速器优化虚拟机时将预配模型设置为
- 不能将 Hyperdisk Balanced 与这些机器类型搭配使用。
- 您无法创建预留。
-
对于这些机器类型,您必须使用 Spot 虚拟机或利用动态工作负载调度器 (DWS) 的功能(例如 MIG 中的规模调整请求)来创建虚拟机。如需详细了解任一选项,请查看以下内容:
A3 Edge 虚拟机
- 您只能使用 A3 Edge 机器类型支持的预配选项来请求容量。
- 使用 A3 Edge 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A3 Edge 机器类型。
- 不能在使用 A3 Edge 机器类型的虚拟机上使用区域级永久性磁盘。
- A3 Edge 机器类型仅在 Sapphire Rapids CPU 平台上提供。
- 您无法将现有虚拟机的机器类型更改为 A3 Edge 机器类型。您只能创建新的 A3 Edge 虚拟机。使用 A3 Edge 机器类型创建虚拟机后,您无法更改机器类型。
- A3 Edge 机器类型不支持单租户。
- 不能在 A3 Edge 机器类型上运行 Windows 操作系统。
A2 标准虚拟机
- 您只能使用 A2 标准机器类型支持的预配选项来请求容量。
- 使用 A2 标准机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A2 标准机器类型。
- A2 标准机器类型仅在 Cascade Lake 平台上提供。
- 如果您的虚拟机使用 A2 标准机器类型,您只能从一种 A2 标准机器类型切换到另一种 A2 标准机器类型。您无法切换到任何其他机器类型。如需了解详情,请参阅修改加速器优化虚拟机。
- 不能将 Windows 操作系统与 <codea2-megagpu-16g< code="" dir="ltr" translate="no"> A2 标准机器类型搭配使用。 使用 Windows 操作系统时,请选择其他 A2 标准机器类型。</codea2-megagpu-16g<>
- 不能在使用 A2 标准机器类型的 Windows 虚拟机上快速格式化挂接的本地 SSD。如需设置这些本地 SSD 的格式,您必须使用 diskpart 实用程序并指定
format fs=ntfs label=tmpfs
设置,以进行完整格式化。 - A2 标准机器类型不支持单租户。
A2 Ultra 虚拟机
- 您只能使用 A2 Ultra 机器类型支持的预配选项来请求容量。
- 使用 A2 Ultra 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A2 Ultra 机器类型。
- A2 Ultra 机器类型仅在 Cascade Lake 平台上提供。
- 如果虚拟机使用 A2 Ultra 机器类型,则不能更改机器类型。如果您需要使用其他 A2 Ultra 机器类型或任何其他机器类型,则必须创建新虚拟机。
- 不能将任何其他机器类型更改为 A2 Ultra 机器类型。如果您需要使用 A2 Ultra 机器类型的虚拟机,则必须创建新虚拟机。
- 不能在使用 A2 Ultra 机器类型的 Windows 虚拟机上快速格式化挂接的本地固态硬盘。如需设置这些本地 SSD 的格式,您必须使用 diskpart 实用程序并指定
format fs=ntfs label=tmpfs
设置,以进行完整格式化。
G2 虚拟机
- 您只能使用 G2 机器类型支持的预配选项来请求容量。
- 使用 G2 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 G2 机器类型。
- G2 机器类型仅在 Cascade Lake 平台上提供。
- 使用 G2 标准机器类型的虚拟机不支持标准永久性磁盘 (
pd-standard
)。如需了解支持的磁盘类型,请参阅 G2 支持的磁盘类型。 - 不能在 G2 机器类型上创建多实例 GPU。
- 如果您需要更改 G2 虚拟机的机器类型,请查看修改加速器优化虚拟机。
- 不能将 Deep Learning VM Image 映像用作使用 G2 机器类型的虚拟机的启动磁盘。
- Container-Optimized OS 的当前默认驱动程序不支持在 G2 机器类型上运行的 L4 GPU。Container-Optimized OS 也仅支持一组特定的驱动程序。如需在 G2 机器类型上使用 Container-Optimized OS,请查看以下说明:
- 使用支持推荐的最低 NVIDIA 驱动程序版本
525.60.13
或更高版本的 Container-Optimized OS 版本。如需了解详情,请查看 Container-Optimized OS 版本说明。 - 在安装驱动程序时,请指定适用于 L4 GPU 的最新可用版本。
例如
sudo cos-extensions install gpu -- -version=525.60.13
。
- 使用支持推荐的最低 NVIDIA 驱动程序版本
- 在以下情况下,您必须使用 Google Cloud CLI 或 REST 创建 G2 虚拟机:
- 您想要指定自定义内存值。
- 您想要自定义可见 CPU 核心数。
N1+GPU 虚拟机
如需了解包含 GPU 的 N1 实例的限制,请参阅 N1 机器系列的功能和 N1 机器系列的 GPU。
选择操作系统
如果您要将 GPU 用于机器学习,请使用以下任一操作系统:
- 针对 AI 工作负载优化过的图片。您可以使用 Ubuntu 和 Rocky 映像,这些映像在加速器优化版本中提供,并预安装了驱动程序和 CUDA 工具包。请参阅 AI Hypercomputer 文档中的操作系统映像。
- Deep Learning VM Image 映像。每个深度学习虚拟机都具有 GPU 驱动程序安装工具,并包含 TensorFlow 和 PyTorch 等软件包。您还可以将 Deep Learning VM 映像用于一般 GPU 工作负载。如需详细了解可用映像以及这些映像中安装的软件包,请参阅选择映像。
或者,您也可以使用任何公共映像或自定义映像。请注意,某些映像可能需要独特的驱动程序,或者具有超出 Compute Engine 文档范围的安装过程。如需了解哪些驱动程序适合您的操作系统映像,请参阅安装 GPU 驱动程序。
检查 GPU 配额
为了保护 Compute Engine 系统和用户,新项目会有一个 GPU 全球配额,该配额限制了您可在任何受支持可用区中创建的 GPU 总数。 如需查看 GPU 配额,请参阅 GPU 配额。
如果您需要额外的 GPU 配额,请申请增加配额。申请 GPU 配额时,您必须为要在每个区域中创建的 GPU 类型申请配额,并为所有可用区中所有类型的 GPU 总数另外申请一个全球配额。
如果您的项目已建立账单历史记录,那么在您提交申请后,项目将自动获得配额。
GPU 虚拟机和抢占式分配配额
使用标准预配模型的虚拟机通常不能使用抢占式分配配额。抢占式配额适用于临时工作负载,并且通常更可用。如果您的项目没有抢占式配额,并且您从未申请过抢占式配额,则项目中的所有虚拟机都会使用标准分配配额。
如果您申请抢占式分配配额,则使用标准预配模型的虚拟机必须满足以下所有条件,才能使用抢占式分配配额:
- 虚拟机已挂接 GPU。
- 虚拟机配置为在预定义的运行时间(通过
maxRunDuration
或terminationTime
字段指定)结束后自动删除。如需了解详情,请参阅以下内容: - 不允许虚拟机使用预留。如需了解详情,请参阅阻止计算实例使用预留。
当您使用有时间限制的 GPU 工作负载的抢占式分配时,您既可以从不间断运行时间中受益,也可以从抢占式分配配额的高可获取性中受益。如需了解详情,请参阅抢占式配额。
创建挂接了 GPU 的虚拟机
如需创建挂接了 GPU 的虚拟机,请完成以下步骤:
创建虚拟机。用于创建虚拟机的方法取决于所选的 GPU 型号。
- 如需创建挂接了 NVIDIA B200 或 H200 GPU 的虚拟机,请参阅创建 A3 Ultra 或 A4 虚拟机。
- 如需创建挂接了 NVIDIA H100、A100 或 L4 GPU 的虚拟机,请参阅创建 A3、A2 或 G2 虚拟机。
- 如需创建挂接了 NVIDIA T4、P4、P100 或 V100 GPU 的虚拟机,请参阅创建挂接了 GPU 的 N1 虚拟机。
如需让虚拟机使用 GPU,您需要在虚拟机上安装 GPU 驱动程序。如果您启用了 NVIDIA RTX 虚拟工作站(以前称为 NVIDIA GRID),请为虚拟工作站安装驱动程序。
后续步骤
详细了解 GPU 平台。
详细了解使用 GPU 的功能和限制。
- 了解如何查看 GPU 的实际和预测用量。