您可以使用 Compute Engine 上的 GPU,加速處理 VM 中的特定工作負載,例如機器學習 (ML) 和資料處理。如要使用 GPU,您可以部署已附加 GPU 的加速器最佳化 VM,也可以將 GPU 附加至 N1 通用 VM。
Compute Engine 以直通模式為您的 VM 提供 GPU,讓您的 VM 可以直接控制 GPU 和其相關記憶體。
如要進一步瞭解 Compute Engine 上的 GPU,請參閱「關於 GPU」一文。
如果您有 3D 視覺化、3D 轉譯或虛擬應用程式等需要處理大量圖形的工作負載,則可以使用 NVIDIA RTX 虛擬工作站 (舊稱 NVIDIA GRID)。
本文概要說明 Compute Engine 提供的不同 GPU VM。
如要查看 Compute Engine 上可用的 GPU 區域和可用區,請參閱「GPU 區域和可用區」。
適用於計算工作負載的 GPU
對於運算工作負載,下列機器類型支援 GPU:
- A4 VM:這些 VM 會自動連結 NVIDIA B200 GPU。
- A3 VM:這些 VM 會自動連接 NVIDIA H100 80GB 或 NVIDIA H200 141GB GPU。
- A2 VM:這些 VM 會自動連接 NVIDIA A100 80GB 或 NVIDIA A100 40GB GPU。
- G2 VM:這些 VM 會自動連結 NVIDIA L4 GPU。
- N1 VM:針對這些 VM,您可以附加下列 GPU 型號:NVIDIA T4、NVIDIA V100、NVIDIA P100 或 NVIDIA P4。
A4 機器系列
如要使用 NVIDIA B200 GPU,您必須使用A4 加速器最佳化機器類型。每個 A4 機器類型都具有固定的 GPU 數量、vCPU 數量和記憶體大小。
機型 | GPU 數量 | GPU 記憶體* (GB HBM3e) |
vCPU 數量† | VM 記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a4-highgpu-8g |
8 | 1,440 | 224 | 3,968 | 12,000 | 10 | 3,600 |
*GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。
†在其中一個可用的 CPU 平台上,我們會以單一硬體超執行緒的形式提供 vCPU。
‡最大傳出頻寬不得超過指定數字。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。
A3 機器系列
如要使用 NVIDIA H100 80GB 或 NVIDIA H200 141GB GPU,您必須使用A3 加速器最佳化機型。每個 A3 機器類型都具有固定的 GPU 數量、vCPU 數量和記憶體大小。
A3 Ultra 機型
如要使用 NVIDIA H200 141GB GPU,您必須使用 A3 Ultra 機型。這個機器類型有 H200 141 GB GPU (nvidia-h200-141gb
),可提供最高網路效能。這類資料最適合用於基礎模型訓練和提供服務。
機型 | GPU 數量 | GPU 記憶體* (GB HBM3e) |
vCPU 數量† | VM 記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a3-ultragpu-8g |
8 | 1128 | 224 | 2,952 | 12,000 | 10 | 3,600 |
*GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。
†在其中一個可用的 CPU 平台上,我們會以單一硬體超執行緒的形式提供 vCPU。
‡最大傳出頻寬不得超過指定數字。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。
A3 Mega、High 和 Edge 機型
如要使用 NVIDIA H100 80GB,您可以選擇下列選項:
- A3 Mega:這類機型連接 H100 80GB GPU (
nvidia-h100-mega-80gb
),非常適合大規模訓練和服務工作負載。 - A3 High:這類機型連接 H100 80GB GPU (
nvidia-h100-80gb
),非常適合訓練和執行工作。 - A3 Edge:這類機型連接 H100 80GB GPU (
nvidia-h100-80gb
),專門用於服務,且僅在特定區域提供。
A3 Mega
機型 | GPU 數量 | GPU 記憶體* (GB HBM3) |
vCPU 數量† | VM 記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a3-megagpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 9 | 1,800 |
A3 高
機型 | GPU 數量 | GPU 記憶體* (GB HBM3) |
vCPU 數量† | VM 記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a3-highgpu-1g |
1 | 80 | 26 | 234 | 750 | 1 | 25 |
a3-highgpu-2g |
2 | 160 | 52 | 468 | 1,500 | 1 | 50 |
a3-highgpu-4g |
4 | 320 | 104 | 936 | 3,000 | 1 | 100 |
a3-highgpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 5 | 1,000 |
A3 Edge
機型 | GPU 數量 | GPU 記憶體* (GB HBM3) |
vCPU 數量† | VM 記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a3-edgegpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 5 |
|
*GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。
†在其中一個可用的 CPU 平台上,我們會以單一硬體超執行緒的形式提供 vCPU。
‡最大傳出頻寬不得超過指定數字。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。
A2 機器系列
如要在Google Cloud上使用 NVIDIA A100 GPU,您必須使用 A2 加速器最佳化機器類型。每個 A2 機器類型都會配備固定數量的 GPU、vCPU 和記憶體大小。
A2 機器系列分為兩種:
- A2 Ultra:這類機型連接 A100 80GB GPU (
nvidia-a100-80gb
) 和本機 SSD 磁碟。 - A2 Standard:這類機型連接 A100 40GB GPU (
nvidia-tesla-a100
)。
A2 Ultra
機型 | GPU 數量 | GPU 記憶體* (GB HBM3) |
vCPU 數量† | VM 記憶體 (GB) | 已連結的本機 SSD (GiB) | 網路頻寬上限 (Gbps)‡ |
---|---|---|---|---|---|---|
a2-ultragpu-1g |
1 | 80 | 12 | 170 | 375 | 24 |
a2-ultragpu-2g |
2 | 160 | 24 | 340 | 750 | 32 |
a2-ultragpu-4g |
4 | 320 | 48 | 680 | 1,500 | 50 |
a2-ultragpu-8g |
8 | 640 | 96 | 1,360 | 3,000 | 100 |
A2 Standard
機型 | GPU 數量 | GPU 記憶體* (GB HBM3) |
vCPU 數量† | VM 記憶體 (GB) | 已連結的本機 SSD (GiB) | 網路頻寬上限 (Gbps)‡ |
---|---|---|---|---|---|---|
a2-highgpu-1g |
1 | 40 | 12 | 85 | 是 | 24 |
a2-highgpu-2g |
2 | 80 | 24 | 170 | 是 | 32 |
a2-highgpu-4g |
4 | 160 | 48 | 340 | 是 | 50 |
a2-highgpu-8g |
8 | 320 | 96 | 680 | 是 | 100 |
a2-megagpu-16g |
16 | 640 | 96 | 1,360 | 是 | 100 |
*GPU 記憶體是 GPU 裝置上可用於暫時儲存資料的記憶體。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。
G2 機器系列
如要使用 NVIDIA L4 GPU (nvidia-l4
或 nvidia-l4-vws
),您必須使用 G2 加速器最佳化 機器類型。
每個 G2 機器類型連接固定數量的 NVIDIA L4 GPU 和 vCPU。每個 G2 機型也都有預設記憶體和自訂記憶體範圍。自訂記憶體範圍會定義您可為每個機器類型分配給 VM 的記憶體容量。您可以在建立 VM 時指定自訂記憶體。
機型 | GPU 數量 | GPU 記憶體* (GB GDDR6) | vCPU 數量† | 預設的 VM 記憶體 (GB) | 自訂 VM 記憶體範圍 (GB) | 支援的最大本機 SSD (GB) | 網路頻寬上限 (Gbps)‡ |
---|---|---|---|---|---|---|---|
g2-standard-4 |
1 | 24 | 4 | 16 | 16 到 32 | 375 | 10 |
g2-standard-8 |
1 | 24 | 8 | 32 | 32 至 54 歲 | 375 | 16 |
g2-standard-12 |
1 | 24 | 12 | 48 | 48 到 54 | 375 | 16 |
g2-standard-16 |
1 | 24 | 16 | 64 | 54 至 64 歲 | 375 | 32 |
g2-standard-24 |
2 | 48 | 24 | 96 | 96 到 108 | 750 | 32 |
g2-standard-32 |
1 | 24 | 32 | 128 | 96 到 128 | 375 | 32 |
g2-standard-48 |
4 | 96 | 48 | 192 | 192 至 216 | 1,500 | 50 |
g2-standard-96 |
8 | 192 | 96 | 384 | 384 到 432 | 3,000 | 100 |
*GPU 記憶體是 GPU 裝置上可用來暫時儲存資料的記憶體。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。
N1 機器系列
您可以將下列 GPU 型號附加至 N1 機器類型 (N1 共用核心機器類型除外)。
GPU 數量較少的 N1 VM 會有 vCPU 數量上限。一般而言,GPU 數量越多,表示您可以建立 vCPU 較多且記憶體較大的 VM 執行個體。
N1 和 T4 GPU
您可以使用下列 VM 設定,將 NVIDIA T4 GPU 附加至 N1 一般用途 VM。
加速器類型 | GPU 數量 | GPU 記憶體* (GB GDDR6) | vCPU 數量 | VM 記憶體 (GB) | 支援本機 SSD |
---|---|---|---|---|---|
nvidia-tesla-t4 或 nvidia-tesla-t4-vws
|
1 | 16 | 1 至 48 | 1 至 312 | 是 |
2 | 32 | 1 至 48 | 1 至 312 | 是 | |
4 | 64 | 1 到 96 | 1 到 624 | 是 |
*GPU 記憶體是 GPU 裝置上可用來暫時儲存資料的記憶體。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。
N1 和 P4 GPU
您可以使用下列 VM 設定,將 NVIDIA P4 GPU 附加至 N1 一般用途 VM。
加速器類型 | GPU 數量 | GPU 記憶體* (GB GDDR5) | vCPU 數量 | VM 記憶體 (GB) | 支援本機 SSD† |
---|---|---|---|---|---|
nvidia-tesla-p4 或 nvidia-tesla-p4-vws
|
1 | 8 | 1 到 24 | 1 到 156 | 是 |
2 | 16 | 1 至 48 | 1 至 312 | 是 | |
4 | 32 | 1 到 96 | 1 到 624 | 是 |
*GPU 記憶體是 GPU 裝置上可用來暫時儲存資料的記憶體。它與 VM 的記憶體分開,專門用於處理圖形密集型工作負載的較高頻寬需求。
†如果 VM 已連接 NVIDIA P4 GPU,則只有 us-central1-c
和 northamerica-northeast1-b
區域支援本機 SSD 磁碟。
N1 搭配 V100 GPU
您可以使用下列 VM 設定,將 NVIDIA V100 GPU 附加至 N1 一般用途 VM。
加速器類型 | GPU 數量 | GPU 記憶體* (GB HBM2) | vCPU 數量 | VM 記憶體 (GB) | 支援本機 SSD† |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1 到 12 | 1 到 78 | 是 |
2 | 32 | 1 至 24 | 1 到 156 | 是 | |
4 | 64 | 1 到 48 | 1 至 312 | 是 | |
8 | 128 | 1 到 96 | 1 到 624 | 是 |
*GPU 記憶體是 GPU 裝置上可用來暫時儲存資料的記憶體。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。
†如果 VM 已連接 NVIDIA V100 GPU,us-east1-c
就不會支援本機 SSD 磁碟。
N1+P100 GPU
您可以使用下列 VM 設定,將 NVIDIA P100 GPU 附加至 N1 一般用途 VM。
對於某些 NVIDIA P100 GPU,部分設定的可用 CPU 和記憶體上限取決於 GPU 資源執行所在的區域。
加速器類型 | GPU 數量 | GPU 記憶體* (GB HBM2) | vCPU 數量 | VM 記憶體 (GB) | 支援本機 SSD |
---|---|---|---|---|---|
nvidia-tesla-p100 或 nvidia-tesla-p100-vws
|
1 | 16 | 1 到 16 | 1 至 104 | 是 |
2 | 32 | 1 至 32 | 1 到 208 | 是 | |
4 | 64 | 1 到 64 個 1 至 96 |
1 到 208 1 到 624 |
是 |
*GPU 記憶體是 GPU 裝置上可用來暫時儲存資料的記憶體。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。
適用於圖形工作負載的 NVIDIA RTX 虛擬工作站 (vWS)
如果您有 3D 視覺化等需要處理大量圖形的工作負載,則可以建立採用 NVIDIA RTX 虛擬工作站 (vWS) (舊稱 NVIDIA GRID) 的虛擬工作站。建立虛擬工作站時,系統會自動將 NVIDIA RTX 虛擬工作站 (vWS) 授權新增至 VM。
如要瞭解虛擬工作站的定價,請參閱 GPU 定價頁面。
對於圖形工作負載,NVIDIA RTX 虛擬工作站 (vWS) 模型可供使用:
G2 機器系列:針對 G2 機器類型,您可以啟用 NVIDIA L4 虛擬工作站 (vWS):
nvidia-l4-vws
N1 機器系列:針對 N1 機器類型,您可以啟用下列虛擬工作站:
- NVIDIA T4 虛擬工作站:
nvidia-tesla-t4-vws
- NVIDIA P100 虛擬工作站:
nvidia-tesla-p100-vws
- NVIDIA P4 虛擬工作站:
nvidia-tesla-p4-vws
- NVIDIA T4 虛擬工作站:
一般比較圖表
下表說明 Compute Engine 上可用的不同 GPU 型號的 GPU 記憶體大小、功能可用性和理想工作負載類型。
GPU 模型 | GPU 記憶體 | 互連網路 | NVIDIA RTX 虛擬工作站 (vWS) 支援 | 最適用 |
---|---|---|---|---|
B200 | 180 GB HBM3e @ 8 TBps | NVLink 全網狀 @ 1,800 GBps | 大規模分散式訓練與推論 LLM、推薦系統、HPC | |
H200 141GB | 141 GB HBM3e @ 4.8 TBps | NVLink 全網狀連線 @ 900 GBps | 大型模型,內含大量資料表,可用於機器學習訓練、推論、HPC、BERT、DLRM | |
H100 80GB | 80 GB HBM3 @ 3.35 TBps | NVLink 全網狀連線 @ 900 GBps | 大型模型,內含大量資料表,可用於機器學習訓練、推論、HPC、BERT、DLRM | |
A100 80GB | 80 GB HBM2e;1.9 TBps | NVLink 全網格 @ 600 GBps | 大型模型,內含大量資料表,可用於機器學習訓練、推論、HPC、BERT、DLRM | |
A100 40GB | 40 GB HBM2;1.6 TBps | NVLink 全網格 @ 600 GBps | 機器學習訓練、推論、HPC | |
L4 | 24 GB GDDR6;300 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC | |
T4 | 16 GB GDDR6;320 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼 | |
V100 | 16 GB HBM2;900 GBps | NVLink Ring,速度為 300 GBps | 機器學習訓練、推論、HPC | |
P4 | 8 GB GDDR5;192 GBps | 不適用 | 遠端視覺化工作站、機器學習推論與影片轉碼 | |
P100 | 16 GB HBM2;732 GBps | 不適用 | 機器學習訓練、推論、HPC、遠端視覺化工作站 |
如要比較 Compute Engine 提供之不同 GPU 型號和地區的 GPU 定價,請參閱 GPU 定價。
成效比較圖表
下表說明 Compute Engine 上提供的不同 GPU 型號效能規格。
運算效能
GPU 模型 | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 141GB | 34 TFLOPS | 67 TFLOPS | ||
H100 80GB | 34 TFLOPS | 67 TFLOPS | ||
A100 80GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
L4 | 0.5 TFLOPS* | 30.3 TFLOPS | ||
T4 | 0.25 TFLOPS* | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS* | 5.5 TFLOPS | 22 TOPS† | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS |
*為了讓 FP64 程式碼正常運作,T4、L4 和 P4 GPU 架構中包含少量的 FP64 硬體單元。
†每秒萬億次運算。
張量核心效能
GPU 模型 | FP64 | TF32 | 混合精確度 FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
B200 | 40 TFLOPS | 2,200 TFLOPS† | 4,500 TFLOPS* | 9,000 TFLOPS† | 9,000 TFLOPS† | |
H200 141GB | 67 TFLOPS | 989 TFLOPS† | 1,979 TFLOPS*、† | 3,958 TOPS† | 3,958 TFLOPS† | |
H100 80GB | 67 TFLOPS | 989 TFLOPS† | 1,979 TFLOPS*、† | 3,958 TOPS† | 3,958 TFLOPS† | |
A100 80GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
A100 40GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS† | 242 TFLOPS* | 485 TOPS† | 485 TFLOPS† | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
*NVIDIA B200、H200、H100、A100 和 L4 GPU 也支援 bfloat16
資料類型,可用於混合精度訓練。
†NVIDIA B200、H200、H100 和 L4 GPU 支援結構稀疏度,可用於將效能值加倍。顯示的值為稀疏值。在沒有稀疏的情況下,規格會降低一半。
後續步驟
- 如要進一步瞭解 Compute Engine 上的 GPU,請參閱「關於 GPU」一文。
- 查看GPU 地區和區域的可用性。
- 查看「網路頻寬和 GPU」一文。
- 瞭解 GPU 定價。