如要加速處理 Compute Engine 上的特定工作負載,您可以部署已附加 GPU 的加速器最佳化 VM,或是將 GPU 附加至 N1 一般用途 VM。
本文說明在 Compute Engine 上執行的 GPU 功能和限制。
您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是一套超級運算系統,經過最佳化處理,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立密集分配的基礎架構,並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器,以達到最佳效能。
GPU 和機器系列
加速器最佳化 (A4X、A4、A3、A2 和 G2) 機器系列和 N1 一般用途機器系列都支援 GPU。如果 VM 使用加速器最佳化機型,系統會在您建立 VM 時自動附加 GPU。如果是使用 N1 機器類型的 VM,您可以在建立 VM 時或之後將 GPU 連接至 VM。GPU 無法與其他機器系列搭配使用。
加速器最佳化機器系列
每個加速器最佳化機型均連接特定型號的 NVIDIA GPU。
- A4X 機型連接的是 NVIDIA GB200 超級晶片。
- A4 機型連接的是 NVIDIA B200 GPU。
- A3 機型連接的是 NVIDIA H100 80GB 或 NVIDIA H200 141GB GPU,目前有下列選項可供選擇:
- A3 Ultra:這類機型連接 H200 141GB GPU
- A3 Mega:這類機型連接 H100 80GB GPU
- A3 High:這類機型連接 H100 80GB GPU
- A3 Edge:這類機型連接 H100 80GB GPU
- A2 機型連接的是 NVIDIA A100 GPU,目前有下列選項可供選擇:
- A2 Ultra:這類機型連接 A100 80GB GPU
- A2 Standard:這類機型連接 A100 40GB GPU
- G2 機器類型連接的是 NVIDIA L4 GPU。
詳情請參閱「加速器最佳化機器系列」。
N1 一般用途機器系列
如要使用其他 GPU 類型,則可使用大多數 N1 機器類型,但 N1 共用核心 (f1-micro
和 g1-small
) 除外。
Spot VM 上的 GPU
您可以用較低的 GPU Spot 價格,將 GPU 新增至 Spot VM。連接至 Spot VM 的 GPU,在運作方式上就如同一般的 GPU,但僅會在 VM 的可用期限內保留。具有 GPU 的 Spot VM,其先占程序與其他所有 Spot VM 均相同。
建議您申請專屬 Preemptible GPU
配額,用於 Spot VM 上的 GPU。詳情請參閱「Spot VM 配額」。
在維護作業期間,根據預設會先占具有 GPU 的 Spot VM,且這類 VM 無法自動重新啟動。如要重新建立已先占的 VM,請使用代管執行個體群組。代管執行個體群組會在 vCPU、記憶體和 GPU 資源可供使用時,重新建立 VM 執行個體。
如果您想在 VM 遭到先占前收到警告,或是想將 VM 設定成在維護作業過後自動重新啟動,請使用具有 GPU 的標準 VM。對於搭載 GPU 的標準 VM,Compute Engine 會在先占前提前一小時通知。
如果 GPU 的 VM 在開始執行後的一分鐘內即已先占,則 Compute Engine 不會向您收取 GPU 的使用費。
如要瞭解如何建立附加 GPU 的 Spot VM,請參閱「建立附加 GPU 的 VM」和「建立 Spot VM」。舉例來說,請參閱「使用 Spot VM 建立 A3 Ultra 或 A4 執行個體」。
具有預先定義執行時間的 VM 上的 GPU
使用標準佈建模式的 VM 通常無法使用先占分配配額。先占配額適用於臨時工作負載,通常較容易取得。如果專案沒有先占配額,且您從未要求先占配額,則專案中的所有 VM 都會消耗標準分配配額。
如果您要求先佔配置配額,則使用標準佈建模型的 VM 必須符合下列所有條件,才能消耗先佔配置配額:
- VM 已連接 GPU。
- VM 會透過
maxRunDuration
或terminationTime
欄位設定,在預先定義的執行時間過後自動刪除。詳情請參閱下列說明: - VM 無法使用預留項目。詳情請參閱「禁止運算執行個體使用預留項目」。
當您為有時間限制的 GPU 工作負載使用先占分配量時,可以同時享有不間斷的執行時間,以及先占分配量配額的高取得率。詳情請參閱「先佔配額」。
GPU 和機密 VM
您可以在 A3 機器系列上,透過 Intel TDX 將 GPU 與機密 VM 執行個體搭配使用。詳情請參閱機密 VM 的支援設定。如要瞭解如何建立搭載 GPU 的機密 VM 執行個體,請參閱「建立搭載 GPU 的機密 VM 執行個體」。
GPU 和區塊儲存空間
在 GPU 平台上建立 VM 時,您可以為 VM 新增永久或暫時區塊儲存空間。如要儲存非暫時性資料,請使用永久區塊儲存空間,例如 Hyperdisk 或永久磁碟,因為這些磁碟與 VM 的生命週期無關。即使刪除 VM,永久儲存空間中的資料仍可保留。
如要使用暫存區塊儲存空間做為暫存暫存儲存空間或快取,請在建立 VM 時新增本機 SSD 磁碟。
使用 Persistent Disk 和 Hyperdisk 磁碟區的永久區塊儲存空間
您可以連結 Persistent Disk,並選取已啟用 GPU 的 VM 的 Hyperdisk 磁碟區。
對於機器學習訓練和服務工作負載,Google 建議使用 Hyperdisk ML 磁碟區,因為這類磁碟區的輸送量高,資料載入時間也較短。因此,Hyperdisk ML 可降低 GPU 閒置時間,是機器學習工作負載更具成本效益的選擇。
Hyperdisk ML 磁碟區提供唯讀多重附加支援,因此您可以將相同磁碟附加至多個 VM,讓每個 VM 存取相同資料。
如要進一步瞭解支援 GPU 的機器系列支援哪些磁碟類型,請參閱 N1 和加速器最佳化機器系列頁面。
本機固態硬碟磁碟
本機 SSD 磁碟可提供快速的暫時儲存空間,用於快取、資料處理或其他暫時性資料。本機 SSD 磁碟是以實體方式連接託管 VM 的伺服器,因此是快速儲存空間。這些是暫時性的,因為 VM 重新啟動時,資料會遺失。
您不應在本機 SSD 磁碟上儲存需要高度持久性的資料。如要儲存非暫時性資料,請改用永久儲存空間。
如果手動停止搭載 GPU 的 VM,在符合特定限制條件的情況下,可以保留本機 SSD 資料。詳情請參閱 本機 SSD 說明文件。
如要瞭解各區域支援的 GPU 類型和本機 SSD,請參閱各 GPU 區域和可用區的本機 SSD 可用性。
GPU 和主機維護
當 Compute Engine 對 VM 執行維護事件時,附加 GPU 的 VM 一律會停止運作。如果 VM 附加了本機 SSD 磁碟,停止 VM 後,本機 SSD 資料就會遺失。
如要瞭解如何處理維護作業,請參閱「處理 GPU 主機維護事件」。
GPU 定價
如果 VM 附加 GPU,則會產生下列費用:
如果您要求 Compute Engine 使用現成、彈性啟動或預留綁定佈建模型佈建 GPU,則可享有折扣價,折扣幅度視 GPU 類型而定。
大多數附加 GPU 的 VM 享有與 vCPU 相似的續用折扣 (SUD)。選用適用於虛擬工作站的 GPU 時,Compute Engine 會自動將 NVIDIA RTX 虛擬工作站授權新增至 VM。
如要瞭解 GPU 每小時和每月的價格,請參閱 GPU 定價頁面。
以承諾使用折扣預留 GPU
如要在特定區域預留 GPU 資源,請參閱選擇預留類型。
如要享有特定區域的 GPU 承諾使用折扣,請務必購買 GPU 的資源承諾使用合約,並將指定相符 GPU 的預留項目附加至承諾使用合約。詳情請參閱「將預留項目加入以資源為準的承諾使用合約」一文。
GPU 限制
對於連接 GPU 的 VM,適用下列限制:
只有搭配使用加速器最佳化 (A4X、A4、A3、A2 和 G2) 或一般用途 N1 機器類型時,才能支援 GPU。
為保護 Compute Engine 系統和使用者,新專案有全域 GPU 配額,這會限制您可在任何受支援區域中建立的 GPU 總數。要求 GPU 配額時,您必須為要在各個地區中建立的 GPU 模型要求配額,並依據所有區域中全部類型之 GPU 的總數要求額外的全域配額。
如果 VM 有一或多個 GPU,針對新增至 VM 的每一 GPU,均有 vCPU 數量上限。如要查看不同 GPU 設定的可用 vCPU 和記憶體範圍,請參閱 GPU 清單。
GPU 需要裝置驅動程式以正常運作。在 Compute Engine 上執行的 NVIDIA GPU 必須使用最低驅動程式版本。如要進一步瞭解驅動程式版本,請參閱「必要的 NVIDIA 驅動程式版本」。
附加 GPU 模型的 VM 唯有在附加的 GPU 模型正式推出後,才適用 Compute Engine 服務水準協議。
如果地區有多個可用區,只有在該地區有多個可用區提供 GPU 模型時,Compute Engine 服務水準協議才會涵蓋 VM。如要查看各區域的 GPU 型號,請參閱 GPU 區域和可用區。
Compute Engine 支援每個 GPU 能有 1 位並行使用者的執行作業。
另請參閱各機器類型搭配附加 GPU 的限制。
後續步驟
- 瞭解如何建立連接 GPU 的 VM。
- 瞭解如何新增或移除 GPU。
- 瞭解如何建立附加 GPU 的機密 VM 執行個體。