本文列出 Compute Engine 提供的 NVIDIA GPU 型號,您可以在虛擬機器 (VM) 執行個體上使用這些 GPU,加快機器學習 (ML)、資料處理和需要大量圖形處理的工作負載。本文也詳細說明哪些 GPU 預先附加至加速器最佳化機器系列 (例如 A4X、A4、A3、A2 和 G2),以及哪些 GPU 可附加至 N1 一般用途執行個體。
您可以參考這份文件,比較不同 GPU 型號的效能、記憶體和功能。如要進一步瞭解加速器最佳化機器家族,包括 CPU 平台、儲存空間選項和網路功能,以及找出符合工作負載的特定機型,請參閱「加速器最佳化機器家族」。
如要進一步瞭解 Compute Engine 上的 GPU,請參閱「關於 GPU」一文。
如要查看 Compute Engine 中 GPU 的可用區域和可用區,請參閱「GPU 區域和可用區」。
可用的 GPU 型號
下列 GPU 型號可搭配指定機器類型使用,支援 AI、機器學習和 HPC 工作負載。如果您有 3D 視覺化等需要處理大量圖形的工作負載,也可以建立採用 NVIDIA RTX 虛擬工作站 (vWS) 的虛擬工作站。部分 GPU 型號支援 NVIDIA RTX 虛擬工作站。建立使用 NVIDIA RTX Virtual Workstation 的執行個體時,Compute Engine 會自動新增 vWS 授權。如要瞭解虛擬工作站的定價資訊,請參閱 GPU 定價頁面。
對於 A 和 G 系列加速器最佳化機型,系統會自動將指定的 GPU 型號附加至執行個體。對於 N1 一般用途機器類型,您可以附加指定的 GPU 型號。
機型 | GPU 模型 | NVIDIA RTX 虛擬工作站 (vWS) 模型 |
---|---|---|
A4X | NVIDIA GB200 Grace Blackwell 超級晶片 (nvidia-gb200 )。
每個 Superchip 包含四個 NVIDIA B200 Blackwell GPU。 |
|
A4 | NVIDIA B200 Blackwell GPU (nvidia-b200 ) |
|
A3 Ultra | NVIDIA H200 SXM GPU (nvidia-h200-141gb ) |
|
A3 Mega |
NVIDIA H100 SXM GPU (nvidia-h100-mega-80gb ) |
|
A3 High 和 A3 Edge |
NVIDIA H100 SXM GPU (nvidia-h100-80gb ) |
|
A2 Ultra | NVIDIA A100 80 GB GPU (nvidia-a100-80gb ) |
|
A2 Standard | NVIDIA A100 40GB GPU (nvidia-a100-40gb ) |
|
G4 (預覽版) | NVIDIA RTX PRO 6000 Blackwell Server 版 (nvidia-rtx-pro-6000 ) |
|
G2 | NVIDIA L4 (nvidia-l4 ) |
NVIDIA L4 虛擬工作站 (vWS) (nvidia-l4-vws ) |
N1 | NVIDIA T4 GPU (nvidia-tesla-t4 ) |
NVIDIA T4 虛擬工作站 (vWS) (nvidia-tesla-t4-vws ) |
NVIDIA P4 GPU (nvidia-tesla-p4 ) |
NVIDIA P4 虛擬工作站 (vWS) (nvidia-tesla-p4-vws ) |
|
NVIDIA V100 GPU (nvidia-tesla-v100 ) |
||
NVIDIA P100 GPU (nvidia-tesla-p100 ) |
NVIDIA P100 虛擬工作站 (vWS) (nvidia-tesla-p100-vws ) |
您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是一套超級電腦系統,經過最佳化處理,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立密集分配的基礎架構,並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器,以達到最佳效能。
A4X 系列機器
A4X 加速器最佳化
機型採用 NVIDIA GB200 Grace Blackwell Superchip (nvidia-gb200
),
非常適合基礎模型訓練和服務。
A4X 是以 NVIDIA GB200 NVL72 為基礎的百京級平台。每部機器都有兩個插槽,搭載 NVIDIA Grace CPU 和 Arm Neoverse V2 核心。這些 CPU 會透過快速晶片對晶片 (NVLink-C2C) 通訊,連線至四個 NVIDIA B200 Blackwell GPU。
已連結 NVIDIA GB200 Grace Blackwell 超級晶片 | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12,000 | 6 | 2,000 | 4 | 720 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A4 系列機型
A4 加速器最佳化機型連接 NVIDIA B200 Blackwell GPU (nvidia-b200
),非常適合用於基礎模型訓練和服務。
已連結的 NVIDIA B200 Blackwell GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3,968 | 12,000 | 10 | 3,600 | 8 | 1,440 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱網路頻寬。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A3 系列機器
A3 加速器最佳化機型連接的是 NVIDIA H100 SXM 或 NVIDIA H200 SXM GPU。
A3 Ultra 機型
A3 Ultra 機型連接 NVIDIA H200 SXM GPU (nvidia-h200-141gb
),是 A3 系列中網路效能最高的機型。A3 Ultra 機型非常適合基礎模型訓練和服務。
附加的 NVIDIA H200 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2,952 | 12,000 | 10 | 3,600 | 8 | 1128 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A3 Mega、High 和 Edge 機型
如要使用 NVIDIA H100 SXM GPU,可以選擇下列方式:
- A3 Mega:這類機型搭載 H100 SXM GPU (
nvidia-h100-mega-80gb
),非常適合大規模訓練和服務工作負載。 - A3 High:這類機型搭載 H100 SXM GPU (
nvidia-h100-80gb
),非常適合訓練和服務工作。 - A3 Edge:這類機型搭載 H100 SXM GPU (
nvidia-h100-80gb
),專為服務而設計,且僅在特定區域提供。
A3 Mega
附加的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3) |
a3-megagpu-8g |
208 | 1,872 | 6,000 | 9 | 1,800 | 8 | 640 |
A3 High
附加的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3,000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1,872 | 6,000 | 5 | 1,000 | 8 | 640 |
A3 Edge
附加的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1,872 | 6,000 | 5 |
|
8 | 640 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A2 機器系列
A2 加速器最佳化機型連接 NVIDIA A100 GPU,非常適合模型微調、大型模型和符合成本效益的推論。
A2 系列機器分為兩種:
- A2 Ultra:這類機型連接 A100 80GB GPU (
nvidia-a100-80gb
) 和本機 SSD 磁碟。 - A2 Standard:這類機型連接 A100 40GB GPU (
nvidia-tesla-a100
)。建立 A2 Standard 執行個體時,您也可以新增本機 SSD 磁碟。如要瞭解可連結的磁碟數量,請參閱必須選擇本機 SSD 磁碟數量的機器類型。
A2 Ultra
已連結 NVIDIA A100 80GB GPU | ||||||
---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1,500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1,360 | 3,000 | 100 | 8 | 640 |
A2 Standard
已連結 NVIDIA A100 40GB GPU | ||||||
---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 支援本機 SSD | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | 是 | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | 是 | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | 是 | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | 是 | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1,360 | 是 | 100 | 16 | 640 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
G4 系列機型
G4 加速器最佳化
機型使用
NVIDIA RTX PRO 6000 Blackwell Server Edition GPU (nvidia-rtx-pro-6000
),
適合用於 NVIDIA Omniverse 模擬工作負載、需要大量繪圖資源的應用程式、影片轉碼和虛擬桌面。與 A 系列機型相比,G4 機型也提供低成本解決方案,可執行單一主機推論和模型微調。
G4 系列的主要功能是支援多 GPU 機型 (g4-standard-96
、g4-standard-192
、g4-standard-384
) 的直接 GPU 對等 (P2P) 通訊。這項功能可讓同一執行個體內的 GPU 透過 PCIe 匯流排直接交換資料,不必經過 CPU 主機。如要進一步瞭解 G4 GPU 對等互連通訊,請參閱「G4 GPU 對等互連通訊」。
附加的 NVIDIA RTX PRO 6000 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 支援的 Titanium SSD 容量上限 (GiB)2 | 實體 NIC 數量 | 網路頻寬上限 (Gbps)3 | GPU 數量 | GPU 記憶體4 (GB GDDR7) |
g4-standard-48 |
48 | 180 | 1,500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3,000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6,000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1,440 | 12,000 | 2 | 400 | 8 | 768 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2建立 G4 執行個體時,可以新增 Titanium SSD 磁碟。如要瞭解可連結的磁碟數量,請參閱必須選擇本機 SSD 磁碟數量的機器類型。
3輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。
4GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
G2 機器系列
G2 加速器最佳化機型連接的是 NVIDIA L4 GPU,非常適合用於成本最佳化的推論、需要大量圖形處理的作業,以及高效能運算工作負載。
每個 G2 機型也都有預設記憶體和自訂記憶體範圍。自訂記憶體範圍會定義每個機型可分配給執行個體的記憶體大小。您也可以在建立 G2 執行個體時新增本機 SSD 磁碟。如要瞭解可連結的磁碟數量,請參閱必須選擇本機 SSD 磁碟數量的機器類型。
已附加的 NVIDIA L4 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 預設執行個體記憶體 (GB) | 自訂執行個體記憶體範圍 (GB) | 支援的最大本機 SSD (GiB) | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16 至 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 至 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 到 54 歲 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 到 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 至 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 到 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 至 216 | 1,500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 到 432 | 3,000 | 100 | 8 | 192 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
N1 機器系列
您可以將下列 GPU 型號附加至N1 機器類型,但N1 共用核心機器類型除外。
與加速器最佳化機器系列中的機器類型不同,N1 機器類型不會隨附一組已附加的 GPU。而是在建立執行個體時,指定要附加的 GPU 數量。
GPU 數量較少的 N1 執行個體會有 vCPU 數量上限。一般而言,GPU 數量越多,表示您可以建立 vCPU 較多且記憶體較大的執行個體。
N1+T4 GPU
您可以將 NVIDIA T4 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
加速器類型 | GPU 數量 | GPU 記憶體1 (GB GDDR6) | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD |
---|---|---|---|---|---|
nvidia-tesla-t4 或nvidia-tesla-t4-vws
|
1 | 16 | 1 至 48 | 1 至 312 | 是 |
2 | 32 | 1 至 48 | 1 至 312 | 是 | |
4 | 64 | 1 至 96 | 1 至 624 | 是 |
1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
N1+P4 GPU
您可以將 NVIDIA P4 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
加速器類型 | GPU 數量 | GPU 記憶體1 (GB GDDR5) | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD2 |
---|---|---|---|---|---|
nvidia-tesla-p4 或nvidia-tesla-p4-vws
|
1 | 8 | 1 至 24 | 1 至 156 | 是 |
2 | 16 | 1 至 48 | 1 至 312 | 是 | |
4 | 32 | 1 至 96 | 1 至 624 | 是 |
1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
2對於已連結 NVIDIA P4 GPU 的執行個體,本機 SSD 磁碟僅支援 us-central1-c
和 northamerica-northeast1-b
區域。
N1+V100 GPU
您可以將 NVIDIA V100 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
加速器類型 | GPU 數量 | GPU 記憶體1 (GB HBM2) | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD2 |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1 至 12 | 1 至 78 | 是 |
2 | 32 | 1 至 24 | 1 至 156 | 是 | |
4 | 64 | 1 至 48 | 1 至 312 | 是 | |
8 | 128 | 1 至 96 | 1 至 624 | 是 |
1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
2對於搭載 NVIDIA V100 GPU 的執行個體,us-east1-c
不支援本機 SSD 磁碟。
N1+P100 GPU
您可以將 NVIDIA P100 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
對於部分 NVIDIA P100 GPU,某些設定的可用 CPU 和記憶體上限取決於 GPU 資源執行的區域。
加速器類型 | GPU 數量 | GPU 記憶體1 (GB HBM2) | 可用區 | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD |
---|---|---|---|---|---|---|
nvidia-tesla-p100 或nvidia-tesla-p100-vws
|
1 | 16 | 所有 P100 區域 | 1 至 16 | 1 至 104 | 是 |
2 | 32 | 所有 P100 區域 | 1 至 32 | 1 至 208 | 是 | |
4 | 64 | us-east1-c 、europe-west1-d 、europe-west1-b |
1 至 64 | 1 至 208 | 是 | |
所有其他 P100 區域 | 1 至 96 | 1 至 624 | 是 |
1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
一般比較圖表
下表說明 Compute Engine 上提供的不同 GPU 型號,在 GPU 記憶體大小、功能可用性,以及理想的工作負載類型等各個要素最適合的選項。
GPU 模型 | GPU 記憶體 | 互連網路 | 支援 NVIDIA RTX 虛擬工作站 (vWS) | 最適用 |
---|---|---|---|---|
GB200 | 180 GB HBM3e @ 8 TBps | NVLink 全網格 @ 1,800 GBps | 大規模分散式訓練和推論 LLM、推薦系統、HPC | |
B200 | 180 GB HBM3e @ 8 TBps | NVLink 全網格 @ 1,800 GBps | 大規模分散式訓練和推論 LLM、推薦系統、HPC | |
H200 | 141 GB HBM3e @ 4.8 TBps | NVLink 全網格 @ 900 GBps | 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、HPC、BERT、DLRM | |
H100 | 80 GB HBM3 @ 3.35 TBps | NVLink 全網格 @ 900 GBps | 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、HPC、BERT、DLRM | |
A100 80GB | 80 GB HBM2e @ 1.9 TBps | NVLink 全網格 @ 600 GBps | 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、HPC、BERT、DLRM | |
A100 40GB | 40 GB HBM2 @ 1.6 TBps | NVLink 全網格 @ 600 GBps | 機器學習訓練、推論、HPC | |
RTX PRO 6000 (預先發布版) | 96 GB GDDR7 (含 ECC) @ 1597 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC | |
L4 | 24 GB GDDR6 @ 300 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC | |
T4 | 16 GB GDDR6 @ 320 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼 | |
V100 | 16 GB HBM2 @ 900 GBps | NVLink Ring @ 300 GBps | 機器學習訓練、推論、HPC | |
P4 | 8 GB GDDR5 @ 192 GBps | 不適用 | 遠端視覺化工作站、機器學習推論與影片轉碼 | |
P100 | 16 GB HBM2 @ 732 GBps | 不適用 | 機器學習訓練、推論、HPC、遠端視覺化工作站 |
如要比較 Compute Engine 提供之不同 GPU 型號和地區的 GPU 定價,請參閱 GPU 定價一文。
成效比較圖表
下表說明 Compute Engine 提供的不同 GPU 型號效能規格。
運算效能
GPU 模型 | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90 TFLOPS | 180 TFLOPS | ||
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 | 34 TFLOPS | 67 TFLOPS | ||
H100 | 34 TFLOPS | 67 TFLOPS | ||
A100 80GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
L4 | 0.5 TFLOPS1 | 30.3 TFLOPS | ||
T4 | 0.25 TFLOPS1 | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS1 | 5.5 TFLOPS | 22 TOPS2 | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS |
1為了讓 FP64 程式碼正常運作,T4、L4 和 P4 GPU 架構中包含少量的 FP64 硬體單元。
2 每秒萬億次運算。
Tensor Core 效能
GPU 模型 | FP64 | TF32 | 混合精確度 FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90 TFLOPS | 2,500 TFLOPS2 | 5,000 TFLOPS1, 2 | 10,000 TFLOPS2 | 20,000 TFLOPS2 | 10,000 TFLOPS2 |
B200 | 40 TFLOPS | 1,100 TFLOPS2 | 4,500 TFLOPS1, 2 | 9,000 TFLOPS2 | 9,000 TFLOPS2 | |
H200 | 67 TFLOPS | 989 TFLOPS2 | 1,979 TFLOPS1, 2 | 3,958 TOPS2 | 3,958 TFLOPS2 | |
H100 | 67 TFLOPS | 989 TFLOPS2 | 1,979 TFLOPS1, 2 | 3,958 TOPS2 | 3,958 TFLOPS2 | |
A100 80GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
A100 40GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS2 | 242 TFLOPS1, 2 | 485 TOPS2 | 485 TFLOPS2 | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
1如要進行混合精度訓練,NVIDIA GB200、B200、H200、H100、A100 和 L4 GPU 也支援 bfloat16
資料型別。
2NVIDIA GB200、B200、H200、H100 和 L4 GPU
支援結構稀疏性。您可以使用結構化稀疏性,將模型效能提升一倍。使用結構化稀疏性時,適用於文件中記錄的值。
如果未使用結構化稀疏性,值會減半。
後續步驟
- 進一步瞭解 Compute Engine GPU。
- 查看 GPU 區域和可用區的可用性。
- 查看網路頻寬和 GPU。
- 查看 GPU 定價詳細資料。