Compute Engine で GPU を使用すると、ML やデータ処理など、VM 上の特定のワークロードを高速化できます。GPU を使用するには、GPU を接続したアクセラレータ最適化 VM をデプロイするか、GPU を N1 汎用 VM に接続します。
Compute Engine では、VM で GPU と関連メモリを直接制御できるように、GPU が VM にパススルー モードで提供されます。
Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。
3D 可視化、3D レンダリング、仮想アプリケーションなどのグラフィックを多用するワークロードが存在する場合、NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を使用できます。
このドキュメントでは、Compute Engine で使用可能な別の GPU VM の概要について説明します。
Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。
コンピューティング ワークロード用 GPU
コンピューティング ワークロードの場合、GPU は次のマシンタイプでサポートされています。
- A3 VM: これらの VM には NVIDIA H100 80 GB GPU が自動的にアタッチされます。
- A2 VM: これらの VM には、NVIDIA A100 80 GB または NVIDIA A100 40 GB GPU が自動的にアタッチされます。
- G2 VM: これらの VM には NVIDIA L4 GPU が自動的にアタッチされます。
- N1 VM: これらの VM では、NVIDIA T4、NVIDIA V100、NVIDIA P100、NVIDIA P4 の GPU モデルをアタッチできます。
A3 マシンシリーズ
NVIDIA H100 80 GB GPU を使用するには、A3 アクセラレータ最適化マシンを使用する必要があります。各 A3 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。
A3 マシンシリーズは次の 3 つのタイプで用意されています。
- A3 Mega: これらのマシンタイプには H100 80 GB GPU(
nvidia-h100-mega-80gb
)が搭載されており、最高のネットワーク パフォーマンスを提供します。最も要求の厳しい大規模なトレーニング ワークロードに最適です。 - A3 High: これらのマシンタイプには H100 80 GB GPU(
nvidia-h100-80gb
)が搭載されており、大規模な AI モデルのトレーニングとサービング タスクの両方に適しています。 - A3 Edge: これらのマシンタイプには H100 80 GB GPU(
nvidia-h100-80gb
)が搭載されており、サービング専用に設計されています。限定されたリージョンセットで使用できます。
A3 Mega
マシンタイプ | GPU 数 | GPU メモリ* (GB HBM3) |
vCPU 数† | VM メモリ(GB) | アタッチされたローカル SSD(GiB) | 物理 NIC の数 | 最大ネットワーク帯域幅(Gbps)‡ | ネットワーク プロトコル |
---|---|---|---|---|---|---|---|---|
a3-megagpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 9 | 1,800 | GPUDirect-TCPXO |
A3 High
a3-highgpu-1g
、a3-highgpu-2g
、a3-highgpu-4g
マシンタイプをプロビジョニングする場合は、Spot VM を使用するか、Dynamic Workload Scheduler(DWS)を使用する機能(MIG でのサイズ変更リクエストなど)を使用する必要があります。これらのオプションの詳細な手順については、以下をご覧ください。
- Spot VM を作成するには、アクセラレータ最適化 VM を作成するをご覧ください。プロビジョニング モデルを
SPOT
に設定してください。 - Dynamic Workload Scheduler を使用する MIG でサイズ変更リクエストを作成するには、GPU VM を使用して MIG を作成するをご覧ください。
マシンタイプ | GPU 数 | GPU メモリ* (GB HBM3) |
vCPU 数† | VM メモリ(GB) | アタッチされたローカル SSD(GiB) | 物理 NIC の数 | 最大ネットワーク帯域幅(Gbps)‡ | ネットワーク プロトコル |
---|---|---|---|---|---|---|---|---|
a3-highgpu-1g |
1 | 80 | 26 | 234 | 750 | 1 | 25 | GPUDirect-TCPX |
a3-highgpu-2g |
2 | 160 | 52 | 468 | 1,500 | 1 | 50 | GPUDirect-TCPX |
a3-highgpu-4g |
4 | 320 | 104 | 936 | 3,000 | 1 | 100 | GPUDirect-TCPX |
a3-highgpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 5 | 800 | GPUDirect-TCPX |
A3 Edge
マシンタイプ | GPU 数 | GPU メモリ* (GB HBM3) |
vCPU 数† | VM メモリ(GB) | アタッチされたローカル SSD(GiB) | 物理 NIC の数 | 最大ネットワーク帯域幅(Gbps)‡ | ネットワーク プロトコル |
---|---|---|---|---|---|---|---|---|
a3-edgegpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 5 |
|
GPUDirect-TCPX |
*GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードでの帯域幅の高い需要に対応するように設計されています。
†vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
‡ 最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅をご覧ください。
A2 マシンシリーズ
Google Cloud で NVIDIA A100 GPU を使用するには、A2 アクセラレータ最適化マシンをデプロイする必要があります。各 A2 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。
A2 マシンシリーズは次の 2 つのタイプで用意されています。
- A2 Ultra: A100 80 GB GPU(
nvidia-a100-80gb
)とローカル SSD ディスクがアタッチされるマシンタイプです。 - A2 Standard: これらのマシンタイプには A100 40 GB GPU(
nvidia-tesla-a100
)がアタッチされています。
A2 Ultra
マシンタイプ | GPU 数 | GPU メモリ* (GB HBM3) |
vCPU 数† | VM メモリ(GB) | アタッチされたローカル SSD(GiB) | 最大ネットワーク帯域幅(Gbps)‡ |
---|---|---|---|---|---|---|
a2-ultragpu-1g |
1 | 80 | 12 | 170 | 375 | 24 |
a2-ultragpu-2g |
2 | 160 | 24 | 340 | 750 | 32 |
a2-ultragpu-4g |
4 | 320 | 48 | 680 | 1,500 | 50 |
a2-ultragpu-8g |
8 | 640 | 96 | 1,360 | 3,000 | 100 |
A2 標準
マシンタイプ | GPU 数 | GPU メモリ* (GB HBM3) |
vCPU 数† | VM メモリ(GB) | アタッチされたローカル SSD(GiB) | 最大ネットワーク帯域幅(Gbps)‡ |
---|---|---|---|---|---|---|
a2-highgpu-1g |
1 | 40 | 12 | 85 | はい | 24 |
a2-highgpu-2g |
2 | 80 | 24 | 170 | はい | 32 |
a2-highgpu-4g |
4 | 160 | 48 | 340 | はい | 50 |
a2-highgpu-8g |
8 | 320 | 96 | 680 | はい | 100 |
a2-megagpu-16g |
16 | 640 | 96 | 1,360 | はい | 100 |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
G2 マシンシリーズ
NVIDIA L4 GPU(nvidia-l4
または nvidia-l4-vws
)を使用するには、G2 アクセラレータ最適化マシンをデプロイする必要があります。
各 G2 マシンタイプには、固定数の NVIDIA L4 GPU と vCPU がアタッチされます。各 G2 マシンタイプにはデフォルトのメモリとカスタムメモリ範囲もあります。カスタムメモリ範囲はマシンタイプごとに VM に割り当てることができるメモリの量を定義します。カスタムメモリは VM の作成時に指定できます。
マシンタイプ | GPU 数 | GPU メモリ*(GB GDDR6) | vCPU 数† | デフォルトの VM メモリ(GB) | カスタム VM メモリ範囲(GB) | サポート対象の最大ローカル SSD(GiB) | 最大ネットワーク帯域幅(Gbps)‡ |
---|---|---|---|---|---|---|---|
g2-standard-4 |
1 | 24 | 4 | 16 | 16~32 | 375 | 10 |
g2-standard-8 |
1 | 24 | 8 | 32 | 32~54 | 375 | 16 |
g2-standard-12 |
1 | 24 | 12 | 48 | 48~54 | 375 | 16 |
g2-standard-16 |
1 | 24 | 16 | 64 | 54~64 | 375 | 32 |
g2-standard-24 |
2 | 48 | 24 | 96 | 96~108 | 750 | 32 |
g2-standard-32 |
1 | 24 | 32 | 128 | 96~128 | 375 | 32 |
g2-standard-48 |
4 | 96 | 48 | 192 | 192~216 | 1,500 | 50 |
g2-standard-96 |
8 | 192 | 96 | 384 | 384~432 | 3,000 | 100 |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
N1 マシンシリーズ
N1 共有コア マシンタイプを除き、次の GPU モデルを N1 マシンタイプに接続できます。
GPU 数が少ない N1 VM の場合は、vCPU の最大数に制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きい VM インスタンスを作成できます。
N1+T4 GPU
次の VM 構成で、NVIDIA T4 GPU を N1 汎用 VM に接続できます。
アクセラレータ タイプ | GPU 数 | GPU メモリ*(GB GDDR6) | vCPU 数 | VM メモリ(GB) | サポート対象のローカル SSD |
---|---|---|---|---|---|
nvidia-tesla-t4 またはnvidia-tesla-t4-vws |
1 | 16 | 1~48 | 1~312 | はい |
2 | 32 | 1~48 | 1~312 | はい | |
4 | 64 | 1~96 | 1~624 | ○ |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
N1+P4 GPU
次の VM 構成で、NVIDIA P4 GPU を N1 汎用 VM に接続できます。
アクセラレータ タイプ | GPU 数 | GPU メモリ*(GB GDDR5) | vCPU 数 | VM メモリ(GB) | サポート対象のローカル SSD† |
---|---|---|---|---|---|
nvidia-tesla-p4 またはnvidia-tesla-p4-vws |
1 | 8 | 1~24 | 1~156 | はい |
2 | 16 | 1~48 | 1~312 | はい | |
4 | 32 | 1~96 | 1~624 | はい |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
†NVIDIA P4 GPU が接続されている VM の場合、ローカル SSD ディスクはゾーン us-central1-c
と northamerica-northeast1-b
でのみサポートされます。
N1+V100 GPU
次の VM 構成で、NVIDIA V100 GPU を N1 汎用 VM に接続できます。
アクセラレータ タイプ | GPU 数 | GPU メモリ*(GB HBM2) | vCPU 数 | VM メモリ(GB) | サポート対象のローカル SSD† |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1~12 | 1~78 | はい |
2 | 32 | 1~24 | 1~156 | はい | |
4 | 64 | 1~48 | 1~312 | はい | |
8 | 128 | 1~96 | 1~624 | ○ |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
†NVIDIA V100 GPU が接続されている VM の場合、us-east1-c
ではローカル SSD ディスクがサポートされていません。
N1+P100 GPU
次の VM 構成で、NVIDIA P100 GPU を N1 汎用 VM に接続できます。
一部の NVIDIA P100 GPU では、一部の構成で使用できる CPU とメモリの最大値が、GPU リソースが実行されているゾーンによって異なります。
アクセラレータ タイプ | GPU 数 | GPU メモリ*(GB HBM2) | vCPU 数 | VM メモリ(GB) | サポート対象のローカル SSD |
---|---|---|---|---|---|
nvidia-tesla-p100 またはnvidia-tesla-p100-vws |
1 | 16 | 1~16 | 1~104 | はい |
2 | 32 | 1~32 | 1~208 | はい | |
4 | 64 | 1~64 1~96 |
1~208 1~624 |
○ |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
グラフィック ワークロード用の NVIDIA RTX 仮想ワークステーション
3D 表示などのグラフィックを多用するワークロードが存在する場合は、NVIDIA RTX 仮想ワークステーション(vWS)(旧称 NVIDIA GRID)を使用する仮想ワークステーションを作成できます。仮想ワークステーションを作成すると、NVIDIA RTX 仮想ワークステーション(vWS)ライセンスが VM に自動的に追加されます。
仮想ワークステーションの料金については、GPU の料金ページをご覧ください。
グラフィック ワークロードの場合、NVIDIA RTX 仮想ワークステーション(vWS)モデルは以下のシリーズで使用できます。
G2 マシンシリーズ: G2 マシンタイプでは、NVIDIA L4 仮想ワークステーション(vWS)を有効にできます。
nvidia-l4-vws
N1 マシンシリーズ: N1 マシンタイプの場合、次の仮想ワークステーションを有効にできます。
- NVIDIA T4 仮想ワークステーション:
nvidia-tesla-t4-vws
- NVIDIA P100 仮想ワークステーション:
nvidia-tesla-p100-vws
- NVIDIA P4 仮想ワークステーション:
nvidia-tesla-p4-vws
- NVIDIA T4 仮想ワークステーション:
一般的な比較表
次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的な ワークロード タイプを示します。
GPU モデル | GPU メモリ | 相互接続 | NVIDIA RTX 仮想ワークステーション(vWS)のサポート | 最適な用途 |
---|---|---|---|---|
H100 80GB | 80 GB HBM3 @ 3.35 TBps | NVLink Full Mesh @ 900 GBps | ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル | |
A100 80 GB | 80 GB HBM2e @ 1.9 TBps | NVLink Full Mesh @ 600 GBps | ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル | |
A100 40 GB | 40 GB HBM2 @ 1.6 TBps | NVLink Full Mesh @ 600 GBps | ML のトレーニング、推論、HPC | |
L4 | 24 GB GDDR6 @ 300 GBps | なし | 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC | |
T4 | 16 GB GDDR6 @ 320 GBps | なし | 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換 | |
V100 | 16 GB HBM2 @ 900 GBps | NVLink Ring @ 300 GBps | ML のトレーニング、推論、HPC | |
P4 | 8 GB GDDR5 @ 192 GBps | なし | リモート可視化のワークステーション、機械学習における推論、動画のコード変換 | |
P100 | 16 GB HBM2 @ 732 GBps | なし | ML のトレーニング、推論、HPC、リモート可視化のワークステーション |
Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。
パフォーマンスの比較グラフ
次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。
コンピューティング パフォーマンス
GPU モデル | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
H100 80GB | 34 TFLOPS | 67 TFLOPS | ||
A100 80 GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
L4 | 0.5 TFLOPS* | 30.3 TFLOPS | ||
T4 | 0.25 TFLOPS* | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS* | 5.5 TFLOPS | 22 TOPS† | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS |
*FP64 コードを正しく動作させるため、T4、L4、P4 GPU アーキテクチャには、少数の FP64 ハードウェア ユニットが組み込まれています。
† TeraOperations/秒。
Tensor Core のパフォーマンス
GPU モデル | FP64 | TF32 | 混合精度 FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
H100 80GB | 67 TFLOPS | 989 TFLOPS† | 1,979 TFLOPS*、† | 3,958 TOPS† | 3,958 TFLOPS† | |
A100 80 GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
A100 40GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS† | 242 TFLOPS*、† | 485 TOPS† | 485 TFLOPS† | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
* 混合精度トレーニングでは、NVIDIA H100、A100、L4 GPU は bfloat16
データ型もサポートします。
† H100 GPU と L4 GPU では、構造的スパース性がサポートされており、これを使用してパフォーマンス値を 2 倍にできます。表示される値にはスパース性があります。スパース性なしでは、仕様は半減します。
次のステップ
- Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。
- GPU のリージョンとゾーンの可用性を確認する。
- ネットワーク帯域幅と GPU を確認する。
- GPU の料金について学習する。