關於 GPU


如要加速 Compute Engine 上的特定工作負載,您可以部署已連接 GPU 的加速器最佳化 VM,也可以將 GPU 連接至 N1 通用 VM。

本文說明在 Compute Engine 上執行的 GPU 的功能和限制。

GPU 和機器系列

N1 一般用途機器系列和加速器最佳化 (A4、A3、A2 和 G2) 機器系列支援 GPU。對於使用 N1 機器類型的 VM,您可以在建立 VM 時或之後,將 GPU 連接至 VM。如果 VM 使用加速器最佳化機器類型,系統會在建立 VM 時自動連接 GPU。GPU 無法與其他機器系列搭配使用。

加速器最佳化機器系列

每個加速器最佳化機型均連接特定型號的 NVIDIA GPU。

  • A4 加速器最佳化機型連接的是 NVIDIA B200 GPU。
  • A3 加速器最佳化機型連接的是 NVIDIA H100 80GB 或 NVIDIA H200 141GB GPU,這些選項可用於下列選項:
    • A3 Ultra:這類機型連接 H200 141GB GPU
    • A3 Mega:這類機型連接 H100 80GB GPU
    • A3 High:這類機型連接 H100 80GB GPU
    • A3 Edge:這類機型連接 H100 80GB GPU
  • A2 加速器最佳化機型連接的是 NVIDIA A100 GPU,這些選項如下:
    • A2 Ultra:這類機型連接 A100 80GB GPU
    • A2 Standard:這類機型連接 A100 40GB GPU
  • G2 加速器最佳化機型連接的是 NVIDIA L4 GPU。

詳情請參閱「加速器最佳化機器系列」。

N1 一般用途機器系列

對於所有其他 GPU 類型,您可以使用大部分 N1 機器類型,但 N1 共用核心 (f1-microg1-small) 除外。

對於這個機器系列,您可以使用預先定義自訂機器類型。

Spot VM 上的 GPU

您可以用較低的 GPU Spot 價格,將 GPU 新增至 Spot VM。連接至 Spot VM 的 GPU 在運作方式上就如同一般的 GPU,但僅會在 VM 的可用期限內保留。具有 GPU 的 Spot VM 會遵循與所有 Spot VM 相同的先占程序

建議您申請專用 Preemptible GPU 配額,以便在 Spot VM 上使用 GPU。詳情請參閱「Spot VM 配額」。

在維護作業期間,根據預設會先占具有 GPU 的點數 VM,且這類 VM 無法自動重新啟動。如要重新建立已先占的 VM,請使用代管執行個體群組。代管執行個體群組會在 vCPU、記憶體和 GPU 資源可供使用時,重新建立 VM 執行個體。

如果您想在 VM 遭到先占前收到警告,或是想將 VM 設為在維護作業過後自動重新啟動,請使用具有 GPU 的標準 VM。對於搭載 GPU 的標準 VM,Compute Engine 會在先占前提前一小時通知

如果 GPU 的 VM 在其開始執行後的第一分鐘內即已先占,則 Compute Engine 不會向您收取 GPU 的使用費。

如要瞭解如何建立附加 GPU 的 Spot VM,請參閱「建立附加 GPU 的 VM」和「建立 Spot VM」。例如,請參閱「使用 Spot VM 建立 A3 Ultra 或 A4 執行個體」一文。

在預先定義的執行時間內,在 VM 上使用 GPU

使用預設標準佈建模式 (標準 VM) 的 VM 資源通常無法使用先占分配配額,因為這類配額是用於臨時工作負載,通常較容易取得。如果專案未取得先占配額,且您從未要求先占配額,則該專案中的所有 VM 都會使用標準分配配額。

不過,一旦您要求可搶佔的配置配額,符合下列所有條件的標準 VM 就只能使用可搶佔的配置配額。

針對這類工作負載使用先占配置配額,您就能同時享有標準 VM 提供的無中斷執行時間,以及先占配置配額提供的改善取得性。

無論使用哪種配額,標準 VM 都無法享有 Spot VM 價格,也不會受到先占機制影響。

詳情請參閱「可先佔配額」。

GPU 和機密 VM

您無法將 GPU 附加至機密 VM 執行個體。如要進一步瞭解機密 VM,請參閱「機密 VM 總覽」。

GPU 和區塊儲存空間

在 GPU 平台上建立 VM 時,您可以為 VM 新增永久或暫時區塊儲存空間。如要儲存非暫時性資料,請使用 Hyperdisk MLPersistent Disk 等永久的區塊儲存空間,因為這些磁碟不受 VM 生命週期影響。即使刪除 VM,永久儲存空間中的資料仍會保留。

如要使用臨時暫存儲存空間或快取,請在建立 VM 時新增本機 SSD 磁碟,以便使用臨時區塊儲存空間。

使用 Persistent Disk 和 Hyperdisk 磁碟區的持久性區塊儲存空間

您可以將 Persistent Disk 和 Hyperdisk ML 磁碟區連接至啟用 GPU 的 VM。

對於機器學習訓練和服務工作負載,Google 建議使用 Hyperdisk ML 磁碟區,因為這類磁碟區可提供高吞吐量和更短的資料載入時間。因此,Hyperdisk ML 可為機器學習工作負載提供更具成本效益的選項,因為它可縮短 GPU 閒置時間。

Hyperdisk ML 磁碟區提供唯讀多重附加支援功能,因此您可以將相同磁碟附加至多個 VM,讓每個 VM 都能存取相同資料。

如要進一步瞭解支援 GPU 的機器系列支援的磁碟類型,請參閱 N1加速器最佳化機器系列頁面。

本機固態硬碟磁碟

本機 SSD 磁碟可提供快速的暫存儲存空間,用於快取、資料處理或其他暫時性資料。本機 SSD 磁碟是以實體方式連接至代管 VM 的伺服器,因此儲存空間速度較快。這些資料是暫時性的,因為 VM 重新啟動時,資料就會遺失。

請勿在本機 SSD 磁碟上儲存具有強烈持久性需求的資料。如要儲存非暫時性資料,請改用持續性儲存空間

如果您手動停止含有 GPU 的 VM,可以保留本機 SSD 資料,但有特定限制。詳情請參閱本機 SSD 說明文件

如要瞭解本機 SSD 與 GPU 類型的區域支援情形,請參閱「依 GPU 區域和區域劃分區域支援本機 SSD 的情況」。

GPU 和主機維護

當 Compute Engine 在 VM 上執行維護事件時,附加 GPU 的 VM 一律會停止。如果 VM 已連結本機 SSD 磁碟,則 VM 停止後,本機 SSD 資料就會遺失。

如要瞭解如何處理維護作業,請參閱「處理 GPU 主機維護事件」。

GPU 定價

大多數附加 GPU 的 VM 都享有與 vCPU 相似的續用折扣。當您選用適用於虛擬工作站的 GPU 時,系統會將 NVIDIA RTX 虛擬工作站授權新增至您的 VM。

如要瞭解 GPU 的每小時和每月價格,請參閱 GPU 定價頁面

以承諾使用折扣預留 GPU

如要在特定區域預留 GPU 資源,請參閱「預留 Compute Engine 可用區資源」。

如要享有特定區域的 GPU 承諾使用折扣,您必須為 GPU 購買資源承諾使用合約,並附加指定相符 GPU 的預留項目至承諾。詳情請參閱「將預留項目加入以資源為基礎的承諾」。

GPU 限制

對於連接 GPU 的 VM,適用下列限制:

  • 只有搭配使用一般用途 N1 或加速器最佳化 (A4、A3、A2 和 G2) 機器類型時,才能支援 GPU。

  • 為保護 Compute Engine 系統和使用者,新專案有全域 GPU 配額,這會限制您可在任何受支援區域中建立的 GPU 總數。要求 GPU 配額時,您必須為要在各個地區中建立的 GPU 模型要求配額,並依據所有區域中全部類型之 GPU 的總數要求額外的全域配額。

  • 如果 VM 有一或多個 GPU,針對新增至 VM 的每一 GPU,均有 vCPU 數量上限。如要查看不同 GPU 設定的可用 vCPU 和記憶體範圍,請參閱 GPU 清單

  • GPU 需要裝置驅動程式以正常運作。在 Compute Engine 上執行的 NVIDIA GPU 必須使用最低驅動程式版本。如要進一步瞭解驅動程式版本,請參閱「必要的 NVIDIA 驅動程式版本」。

  • 附加特定 GPU 模型的 VM 僅在附加的 GPU 模型已普遍推出,且在同一區域的多個可用區中皆支援時,才適用 Compute Engine 服務水準協議。詳情請參閱「GPU 區域和區域」。

  • Compute Engine 支援每個 GPU 能有 1 位並行使用者的執行作業。

  • 另請參閱已連接 GPU 的每種機器類型限制

後續步驟