GPU 機器類型


您可以使用 Compute Engine 上的 GPU,加速處理 VM 中的特定工作負載,例如機器學習 (ML) 和資料處理。如要使用 GPU,您可以部署已附加 GPU 的加速器最佳化 VM,也可以將 GPU 附加至 N1 通用 VM。

Compute Engine 以直通模式為您的 VM 提供 GPU,讓您的 VM 可以直接控制 GPU 和其相關記憶體。

如要進一步瞭解 Compute Engine 上的 GPU,請參閱「關於 GPU」一文。

如果您有 3D 視覺化、3D 轉譯或虛擬應用程式等需要處理大量圖形的工作負載,則可以使用 NVIDIA RTX 虛擬工作站 (舊稱 NVIDIA GRID)。

本文概要說明 Compute Engine 提供的不同 GPU VM。

如要查看 Compute Engine 上可用的 GPU 區域和可用區,請參閱「GPU 區域和可用區」。

適用於計算工作負載的 GPU

對於運算工作負載,下列機器類型支援 GPU:

  • A4 VM:這些 VM 會自動連結 NVIDIA B200 GPU。
  • A3 VM:這些 VM 會自動連接 NVIDIA H100 80GB 或 NVIDIA H200 141GB GPU。
  • A2 VM:這些 VM 會自動連接 NVIDIA A100 80GB 或 NVIDIA A100 40GB GPU。
  • G2 VM:這些 VM 會自動連結 NVIDIA L4 GPU。
  • N1 VM:針對這些 VM,您可以附加下列 GPU 型號:NVIDIA T4、NVIDIA V100、NVIDIA P100 或 NVIDIA P4。

A4 機器系列

如要使用 NVIDIA B200 GPU,您必須使用A4 加速器最佳化機器類型。每個 A4 機器類型都具有固定的 GPU 數量、vCPU 數量和記憶體大小。

機型 GPU 數量 GPU 記憶體*
(GB HBM3e)
vCPU 數量 VM 記憶體 (GB) 已連結的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)
a4-highgpu-8g 8 1,440 224 3,968 12,000 10 3,600

*GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。
在其中一個可用的 CPU 平台上,我們會以單一硬體超執行緒的形式提供 vCPU。
最大傳出頻寬不得超過指定數字。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。

A3 機器系列

如要使用 NVIDIA H100 80GB 或 NVIDIA H200 141GB GPU,您必須使用A3 加速器最佳化機型。每個 A3 機器類型都具有固定的 GPU 數量、vCPU 數量和記憶體大小。

A3 Ultra 機型

如要使用 NVIDIA H200 141GB GPU,您必須使用 A3 Ultra 機型。這個機器類型有 H200 141 GB GPU (nvidia-h200-141gb),可提供最高網路效能。這類資料最適合用於基礎模型訓練和提供服務。

機型 GPU 數量 GPU 記憶體*
(GB HBM3e)
vCPU 數量 VM 記憶體 (GB) 已連結的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)
a3-ultragpu-8g 8 1128 224 2,952 12,000 10 3,600

*GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。
在其中一個可用的 CPU 平台上,我們會以單一硬體超執行緒的形式提供 vCPU。
最大傳出頻寬不得超過指定數字。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。

A3 Mega、High 和 Edge 機型

如要使用 NVIDIA H100 80GB,您可以選擇下列選項:

  • A3 Mega:這類機型連接 H100 80GB GPU (nvidia-h100-mega-80gb),非常適合大規模訓練和服務工作負載。
  • A3 High:這類機型連接 H100 80GB GPU (nvidia-h100-80gb),非常適合訓練和執行工作。
  • A3 Edge:這類機型連接 H100 80GB GPU (nvidia-h100-80gb),專門用於服務,且僅在特定區域提供。

A3 Mega

機型 GPU 數量 GPU 記憶體*
(GB HBM3)
vCPU 數量 VM 記憶體 (GB) 已連結的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)
a3-megagpu-8g 8 640 208 1,872 6,000 9 1,800

A3 高

機型 GPU 數量 GPU 記憶體*
(GB HBM3)
vCPU 數量 VM 記憶體 (GB) 已連結的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)
a3-highgpu-1g 1 80 26 234 750 1 25
a3-highgpu-2g 2 160 52 468 1,500 1 50
a3-highgpu-4g 4 320 104 936 3,000 1 100
a3-highgpu-8g 8 640 208 1,872 6,000 5 1,000

A3 Edge

機型 GPU 數量 GPU 記憶體*
(GB HBM3)
vCPU 數量 VM 記憶體 (GB) 已連結的本機 SSD (GiB) 實體 NIC 數量 網路頻寬上限 (Gbps)
a3-edgegpu-8g 8 640 208 1,872 6,000 5
  • 800:適用於 asia-south1 和 northamerica-northeast2
  • 400:適用於所有其他 A3 Edge 區域

*GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。
在其中一個可用的 CPU 平台上,我們會以單一硬體超執行緒的形式提供 vCPU。
最大傳出頻寬不得超過指定數字。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。

A2 機器系列

如要在Google Cloud上使用 NVIDIA A100 GPU,您必須使用 A2 加速器最佳化機器類型。每個 A2 機器類型都會配備固定數量的 GPU、vCPU 和記憶體大小。

A2 機器系列分為兩種:

  • A2 Ultra:這類機型連接 A100 80GB GPU (nvidia-a100-80gb) 和本機 SSD 磁碟。
  • A2 Standard:這類機型連接 A100 40GB GPU (nvidia-tesla-a100)。

A2 Ultra

機型 GPU 數量 GPU 記憶體*
(GB HBM3)
vCPU 數量 VM 記憶體 (GB) 已連結的本機 SSD (GiB) 網路頻寬上限 (Gbps)
a2-ultragpu-1g 1 80 12 170 375 24
a2-ultragpu-2g 2 160 24 340 750 32
a2-ultragpu-4g 4 320 48 680 1,500 50
a2-ultragpu-8g 8 640 96 1,360 3,000 100

A2 Standard

機型 GPU 數量 GPU 記憶體*
(GB HBM3)
vCPU 數量 VM 記憶體 (GB) 已連結的本機 SSD (GiB) 網路頻寬上限 (Gbps)
a2-highgpu-1g 1 40 12 85 24
a2-highgpu-2g 2 80 24 170 32
a2-highgpu-4g 4 160 48 340 50
a2-highgpu-8g 8 320 96 680 100
a2-megagpu-16g 16 640 96 1,360 100

*GPU 記憶體是 GPU 裝置上可用於暫時儲存資料的記憶體。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。

G2 機器系列

如要使用 NVIDIA L4 GPU (nvidia-l4nvidia-l4-vws),您必須使用 G2 加速器最佳化 機器類型。

每個 G2 機器類型連接固定數量的 NVIDIA L4 GPU 和 vCPU。每個 G2 機型也都有預設記憶體和自訂記憶體範圍。自訂記憶體範圍會定義您可為每個機器類型分配給 VM 的記憶體容量。您可以在建立 VM 時指定自訂記憶體。

機型 GPU 數量 GPU 記憶體* (GB GDDR6) vCPU 數量 預設的 VM 記憶體 (GB) 自訂 VM 記憶體範圍 (GB) 支援的最大本機 SSD (GB) 網路頻寬上限 (Gbps)
g2-standard-4 1 24 4 16 16 到 32 375 10
g2-standard-8 1 24 8 32 32 至 54 歲 375 16
g2-standard-12 1 24 12 48 48 到 54 375 16
g2-standard-16 1 24 16 64 54 至 64 歲 375 32
g2-standard-24 2 48 24 96 96 到 108 750 32
g2-standard-32 1 24 32 128 96 到 128 375 32
g2-standard-48 4 96 48 192 192 至 216 1,500 50
g2-standard-96 8 192 96 384 384 到 432 3,000 100

*GPU 記憶體是 GPU 裝置上可用來暫時儲存資料的記憶體。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。

N1 機器系列

您可以將下列 GPU 型號附加至 N1 機器類型 (N1 共用核心機器類型除外)。

GPU 數量較少的 N1 VM 會有 vCPU 數量上限。一般而言,GPU 數量越多,表示您可以建立 vCPU 較多且記憶體較大的 VM 執行個體。

N1 和 T4 GPU

您可以使用下列 VM 設定,將 NVIDIA T4 GPU 附加至 N1 一般用途 VM。

加速器類型 GPU 數量 GPU 記憶體* (GB GDDR6) vCPU 數量 VM 記憶體 (GB) 支援本機 SSD
nvidia-tesla-t4
nvidia-tesla-t4-vws
1 16 1 至 48 1 至 312
2 32 1 至 48 1 至 312
4 64 1 到 96 1 到 624

*GPU 記憶體是 GPU 裝置上可用來暫時儲存資料的記憶體。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。

N1 和 P4 GPU

您可以使用下列 VM 設定,將 NVIDIA P4 GPU 附加至 N1 一般用途 VM。

加速器類型 GPU 數量 GPU 記憶體* (GB GDDR5) vCPU 數量 VM 記憶體 (GB) 支援本機 SSD
nvidia-tesla-p4
nvidia-tesla-p4-vws
1 8 1 到 24 1 到 156
2 16 1 至 48 1 至 312
4 32 1 到 96 1 到 624

*GPU 記憶體是 GPU 裝置上可用來暫時儲存資料的記憶體。它與 VM 的記憶體分開,專門用於處理圖形密集型工作負載的較高頻寬需求。

如果 VM 已連接 NVIDIA P4 GPU,則只有 us-central1-cnorthamerica-northeast1-b 區域支援本機 SSD 磁碟。

N1 搭配 V100 GPU

您可以使用下列 VM 設定,將 NVIDIA V100 GPU 附加至 N1 一般用途 VM。

加速器類型 GPU 數量 GPU 記憶體* (GB HBM2) vCPU 數量 VM 記憶體 (GB) 支援本機 SSD
nvidia-tesla-v100 1 16 1 到 12 1 到 78
2 32 1 至 24 1 到 156
4 64 1 到 48 1 至 312
8 128 1 到 96 1 到 624

*GPU 記憶體是 GPU 裝置上可用來暫時儲存資料的記憶體。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。
如果 VM 已連接 NVIDIA V100 GPU,us-east1-c 就不會支援本機 SSD 磁碟。

N1+P100 GPU

您可以使用下列 VM 設定,將 NVIDIA P100 GPU 附加至 N1 一般用途 VM。

對於某些 NVIDIA P100 GPU,部分設定的可用 CPU 和記憶體上限取決於 GPU 資源執行所在的區域。

加速器類型 GPU 數量 GPU 記憶體* (GB HBM2) vCPU 數量 VM 記憶體 (GB) 支援本機 SSD
nvidia-tesla-p100
nvidia-tesla-p100-vws
1 16 1 到 16 1 至 104
2 32 1 至 32 1 到 208
4 64

1 到 64 個
(us-east1-c、europe-west1-d、europe-west1-b)

1 至 96
(所有 P100 區域)

1 到 208
(us-east1-c、europe-west1-d、europe-west1-b)

1 到 624
(所有 P100 區域)

*GPU 記憶體是 GPU 裝置上可用來暫時儲存資料的記憶體。它與 VM 的記憶體分開,專門用於處理圖像密集型工作負載的較高頻寬需求。

適用於圖形工作負載的 NVIDIA RTX 虛擬工作站 (vWS)

如果您有 3D 視覺化等需要處理大量圖形的工作負載,則可以建立採用 NVIDIA RTX 虛擬工作站 (vWS) (舊稱 NVIDIA GRID) 的虛擬工作站。建立虛擬工作站時,系統會自動將 NVIDIA RTX 虛擬工作站 (vWS) 授權新增至 VM。

如要瞭解虛擬工作站的定價,請參閱 GPU 定價頁面

對於圖形工作負載,NVIDIA RTX 虛擬工作站 (vWS) 模型可供使用:

  • G2 機器系列:針對 G2 機器類型,您可以啟用 NVIDIA L4 虛擬工作站 (vWS):nvidia-l4-vws

  • N1 機器系列:針對 N1 機器類型,您可以啟用下列虛擬工作站:

    • NVIDIA T4 虛擬工作站:nvidia-tesla-t4-vws
    • NVIDIA P100 虛擬工作站:nvidia-tesla-p100-vws
    • NVIDIA P4 虛擬工作站:nvidia-tesla-p4-vws

一般比較圖表

下表說明 Compute Engine 上可用的不同 GPU 型號的 GPU 記憶體大小、功能可用性和理想工作負載類型。

GPU 模型 GPU 記憶體 互連網路 NVIDIA RTX 虛擬工作站 (vWS) 支援 最適用
B200 180 GB HBM3e @ 8 TBps NVLink 全網狀 @ 1,800 GBps 大規模分散式訓練與推論 LLM、推薦系統、HPC
H200 141GB 141 GB HBM3e @ 4.8 TBps NVLink 全網狀連線 @ 900 GBps 大型模型,內含大量資料表,可用於機器學習訓練、推論、HPC、BERT、DLRM
H100 80GB 80 GB HBM3 @ 3.35 TBps NVLink 全網狀連線 @ 900 GBps 大型模型,內含大量資料表,可用於機器學習訓練、推論、HPC、BERT、DLRM
A100 80GB 80 GB HBM2e;1.9 TBps NVLink 全網格 @ 600 GBps 大型模型,內含大量資料表,可用於機器學習訓練、推論、HPC、BERT、DLRM
A100 40GB 40 GB HBM2;1.6 TBps NVLink 全網格 @ 600 GBps 機器學習訓練、推論、HPC
L4 24 GB GDDR6;300 GBps 不適用 機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC
T4 16 GB GDDR6;320 GBps 不適用 機器學習推論、訓練、遠端視覺化工作站、影片轉碼
V100 16 GB HBM2;900 GBps NVLink Ring,速度為 300 GBps 機器學習訓練、推論、HPC
P4 8 GB GDDR5;192 GBps 不適用 遠端視覺化工作站、機器學習推論與影片轉碼
P100 16 GB HBM2;732 GBps 不適用 機器學習訓練、推論、HPC、遠端視覺化工作站

如要比較 Compute Engine 提供之不同 GPU 型號和地區的 GPU 定價,請參閱 GPU 定價

成效比較圖表

下表說明 Compute Engine 上提供的不同 GPU 型號效能規格。

運算效能

GPU 模型 FP64 FP32 FP16 INT8
B200 40 TFLOPS 80 TFLOPS
H200 141GB 34 TFLOPS 67 TFLOPS
H100 80GB 34 TFLOPS 67 TFLOPS
A100 80GB 9.7 TFLOPS 19.5 TFLOPS
A100 40GB 9.7 TFLOPS 19.5 TFLOPS
L4 0.5 TFLOPS* 30.3 TFLOPS
T4 0.25 TFLOPS* 8.1 TFLOPS
V100 7.8 TFLOPS 15.7 TFLOPS
P4 0.2 TFLOPS* 5.5 TFLOPS 22 TOPS
P100 4.7 TFLOPS 9.3 TFLOPS 18.7 TFLOPS

*為了讓 FP64 程式碼正常運作,T4、L4 和 P4 GPU 架構中包含少量的 FP64 硬體單元。
每秒萬億次運算。

張量核心效能

GPU 模型 FP64 TF32 混合精確度 FP16/FP32 INT8 INT4 FP8
B200 40 TFLOPS 2,200 TFLOPS 4,500 TFLOPS* 9,000 TFLOPS 9,000 TFLOPS
H200 141GB 67 TFLOPS 989 TFLOPS 1,979 TFLOPS*、† 3,958 TOPS 3,958 TFLOPS
H100 80GB 67 TFLOPS 989 TFLOPS 1,979 TFLOPS*、† 3,958 TOPS 3,958 TFLOPS
A100 80GB 19.5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1248 TOPS
A100 40GB 19.5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1248 TOPS
L4 120 TFLOPS 242 TFLOPS* 485 TOPS 485 TFLOPS
T4 65 TFLOPS 130 TOPS 260 TOPS
V100 125 TFLOPS
P4
P100

*NVIDIA B200、H200、H100、A100 和 L4 GPU 也支援 bfloat16 資料類型,可用於混合精度訓練。
NVIDIA B200、H200、H100 和 L4 GPU 支援結構稀疏度,可用於將效能值加倍。顯示的值為稀疏值。在沒有稀疏的情況下,規格會降低一半。

後續步驟