GPU マシンタイプ


Compute Engine で GPU を使用すると、ML やデータ処理など、VM 上の特定のワークロードを高速化できます。GPU を使用するには、GPU を接続したアクセラレータ最適化 VM をデプロイするか、GPU を N1 汎用 VM に接続します。

Compute Engine では、VM で GPU と関連メモリを直接制御できるように、GPU が VM にパススルー モードで提供されます。

Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。

3D 可視化、3D レンダリング、仮想アプリケーションなどのグラフィックを多用するワークロードが存在する場合、NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を使用できます。

このドキュメントでは、Compute Engine で使用可能な別の GPU VM の概要について説明します。

Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。

コンピューティング ワークロード用 GPU

コンピューティング ワークロードの場合、GPU は次のマシンタイプでサポートされています。

  • A3 VM: これらの VM には NVIDIA H100 80 GB GPU が自動的にアタッチされます。
  • A2 VM: これらの VM には、NVIDIA A100 80 GB または NVIDIA A100 40 GB GPU が自動的にアタッチされます。
  • G2 VM: これらの VM には NVIDIA L4 GPU が自動的にアタッチされます。
  • N1 VM: これらの VM では、NVIDIA T4、NVIDIA V100、NVIDIA P100、NVIDIA P4 の GPU モデルをアタッチできます。

A3 マシンシリーズ

NVIDIA H100 80 GB GPU を使用するには、A3 アクセラレータ最適化マシンを使用する必要があります。各 A3 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。

A3 マシンシリーズは次の 3 つのタイプで用意されています。

  • A3 Mega: これらのマシンタイプには H100 80 GB GPU(nvidia-h100-mega-80gb)が搭載されており、最高のネットワーク パフォーマンスを提供します。最も要求の厳しい大規模なトレーニング ワークロードに最適です。
  • A3 High: これらのマシンタイプには H100 80 GB GPU(nvidia-h100-80gb)が搭載されており、大規模な AI モデルのトレーニングとサービング タスクの両方に適しています。
  • A3 Edge: これらのマシンタイプには H100 80 GB GPU(nvidia-h100-80gb)が搭載されており、サービング専用に設計されています。限定されたリージョンセットで使用できます。

A3 Mega

マシンタイプ GPU 数 GPU メモリ*
(GB HBM3)
vCPU 数 VM メモリ(GB) アタッチされたローカル SSD(GiB) 物理 NIC の数 最大ネットワーク帯域幅(Gbps) ネットワーク プロトコル
a3-megagpu-8g 8 640 208 1,872 6,000 9 1,800 GPUDirect-TCPXO

A3 High

a3-highgpu-1ga3-highgpu-2ga3-highgpu-4g マシンタイプをプロビジョニングする場合は、Spot VM を使用するか、Dynamic Workload Scheduler(DWS)を使用する機能(MIG でのサイズ変更リクエストなど)を使用する必要があります。これらのオプションの詳細な手順については、以下をご覧ください。
マシンタイプ GPU 数 GPU メモリ*
(GB HBM3)
vCPU 数 VM メモリ(GB) アタッチされたローカル SSD(GiB) 物理 NIC の数 最大ネットワーク帯域幅(Gbps) ネットワーク プロトコル
a3-highgpu-1g 1 80 26 234 750 1 25 GPUDirect-TCPX
a3-highgpu-2g 2 160 52 468 1,500 1 50 GPUDirect-TCPX
a3-highgpu-4g 4 320 104 936 3,000 1 100 GPUDirect-TCPX
a3-highgpu-8g 8 640 208 1,872 6,000 5 800 GPUDirect-TCPX

A3 Edge

マシンタイプ GPU 数 GPU メモリ*
(GB HBM3)
vCPU 数 VM メモリ(GB) アタッチされたローカル SSD(GiB) 物理 NIC の数 最大ネットワーク帯域幅(Gbps) ネットワーク プロトコル
a3-edgegpu-8g 8 640 208 1,872 6,000 5 GPUDirect-TCPX

*GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードでの帯域幅の高い需要に対応するように設計されています。
vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェア ハイパースレッドとして実装されます。
最大下り(外向き)帯域幅は許容数を超えることはできません。実際の下り(外向き)帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅をご覧ください。

A2 マシンシリーズ

Google Cloud で NVIDIA A100 GPU を使用するには、A2 アクセラレータ最適化マシンをデプロイする必要があります。各 A2 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。

A2 マシンシリーズは次の 2 つのタイプで用意されています。

  • A2 Ultra: A100 80 GB GPU(nvidia-a100-80gb)とローカル SSD ディスクがアタッチされるマシンタイプです。
  • A2 Standard: これらのマシンタイプには A100 40 GB GPU(nvidia-tesla-a100)がアタッチされています。

A2 Ultra

マシンタイプ GPU 数 GPU メモリ*
(GB HBM3)
vCPU 数 VM メモリ(GB) アタッチされたローカル SSD(GiB) 最大ネットワーク帯域幅(Gbps)
a2-ultragpu-1g 1 80 12 170 375 24
a2-ultragpu-2g 2 160 24 340 750 32
a2-ultragpu-4g 4 320 48 680 1,500 50
a2-ultragpu-8g 8 640 96 1,360 3,000 100

A2 標準

マシンタイプ GPU 数 GPU メモリ*
(GB HBM3)
vCPU 数 VM メモリ(GB) アタッチされたローカル SSD(GiB) 最大ネットワーク帯域幅(Gbps)
a2-highgpu-1g 1 40 12 85 はい 24
a2-highgpu-2g 2 80 24 170 はい 32
a2-highgpu-4g 4 160 48 340 はい 50
a2-highgpu-8g 8 320 96 680 はい 100
a2-megagpu-16g 16 640 96 1,360 はい 100

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

G2 マシンシリーズ

NVIDIA L4 GPU(nvidia-l4 または nvidia-l4-vws)を使用するには、G2 アクセラレータ最適化マシンをデプロイする必要があります。

各 G2 マシンタイプには、固定数の NVIDIA L4 GPU と vCPU がアタッチされます。各 G2 マシンタイプにはデフォルトのメモリとカスタムメモリ範囲もあります。カスタムメモリ範囲はマシンタイプごとに VM に割り当てることができるメモリの量を定義します。カスタムメモリは VM の作成時に指定できます。

マシンタイプ GPU 数 GPU メモリ*(GB GDDR6) vCPU 数 デフォルトの VM メモリ(GB) カスタム VM メモリ範囲(GB) サポート対象の最大ローカル SSD(GiB) 最大ネットワーク帯域幅(Gbps)
g2-standard-4 1 24 4 16 16~32 375 10
g2-standard-8 1 24 8 32 32~54 375 16
g2-standard-12 1 24 12 48 48~54 375 16
g2-standard-16 1 24 16 64 54~64 375 32
g2-standard-24 2 48 24 96 96~108 750 32
g2-standard-32 1 24 32 128 96~128 375 32
g2-standard-48 4 96 48 192 192~216 1,500 50
g2-standard-96 8 192 96 384 384~432 3,000 100

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

N1 マシンシリーズ

N1 共有コア マシンタイプを除き、次の GPU モデルを N1 マシンタイプに接続できます。

GPU 数が少ない N1 VM の場合は、vCPU の最大数に制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きい VM インスタンスを作成できます。

N1+T4 GPU

次の VM 構成で、NVIDIA T4 GPU を N1 汎用 VM に接続できます。

アクセラレータ タイプ GPU 数 GPU メモリ*(GB GDDR6) vCPU 数 VM メモリ(GB) サポート対象のローカル SSD
nvidia-tesla-t4 または
nvidia-tesla-t4-vws
1 16 1~48 1~312 はい
2 32 1~48 1~312 はい
4 64 1~96 1~624

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

N1+P4 GPU

次の VM 構成で、NVIDIA P4 GPU を N1 汎用 VM に接続できます。

アクセラレータ タイプ GPU 数 GPU メモリ*(GB GDDR5) vCPU 数 VM メモリ(GB) サポート対象のローカル SSD
nvidia-tesla-p4 または
nvidia-tesla-p4-vws
1 8 1~24 1~156 はい
2 16 1~48 1~312 はい
4 32 1~96 1~624 はい

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

NVIDIA P4 GPU が接続されている VM の場合、ローカル SSD ディスクはゾーン us-central1-cnorthamerica-northeast1-b でのみサポートされます。

N1+V100 GPU

次の VM 構成で、NVIDIA V100 GPU を N1 汎用 VM に接続できます。

アクセラレータ タイプ GPU 数 GPU メモリ*(GB HBM2) vCPU 数 VM メモリ(GB) サポート対象のローカル SSD
nvidia-tesla-v100 1 16 1~12 1~78 はい
2 32 1~24 1~156 はい
4 64 1~48 1~312 はい
8 128 1~96 1~624

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
NVIDIA V100 GPU が接続されている VM の場合、us-east1-c ではローカル SSD ディスクがサポートされていません。

N1+P100 GPU

次の VM 構成で、NVIDIA P100 GPU を N1 汎用 VM に接続できます。

一部の NVIDIA P100 GPU では、一部の構成で使用できる CPU とメモリの最大値が、GPU リソースが実行されているゾーンによって異なります。

アクセラレータ タイプ GPU 数 GPU メモリ*(GB HBM2) vCPU 数 VM メモリ(GB) サポート対象のローカル SSD
nvidia-tesla-p100 または
nvidia-tesla-p100-vws
1 16 1~16 1~104 はい
2 32 1~32 1~208 はい
4 64

1~64
(us-east1-c、europe-west1-d、europe-west1-b)

1~96
(すべての P100 ゾーン)

1~208
(us-east1-c、europe-west1-d、europe-west1-b)

1~624
(すべての P100 ゾーン)

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

グラフィック ワークロード用の NVIDIA RTX 仮想ワークステーション

3D 表示などのグラフィックを多用するワークロードが存在する場合は、NVIDIA RTX 仮想ワークステーション(vWS)(旧称 NVIDIA GRID)を使用する仮想ワークステーションを作成できます。仮想ワークステーションを作成すると、NVIDIA RTX 仮想ワークステーション(vWS)ライセンスが VM に自動的に追加されます。

仮想ワークステーションの料金については、GPU の料金ページをご覧ください。

グラフィック ワークロードの場合、NVIDIA RTX 仮想ワークステーション(vWS)モデルは以下のシリーズで使用できます。

  • G2 マシンシリーズ: G2 マシンタイプでは、NVIDIA L4 仮想ワークステーション(vWS)を有効にできます。nvidia-l4-vws

  • N1 マシンシリーズ: N1 マシンタイプの場合、次の仮想ワークステーションを有効にできます。

    • NVIDIA T4 仮想ワークステーション: nvidia-tesla-t4-vws
    • NVIDIA P100 仮想ワークステーション: nvidia-tesla-p100-vws
    • NVIDIA P4 仮想ワークステーション: nvidia-tesla-p4-vws

一般的な比較表

次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的な ワークロード タイプを示します。

GPU モデル GPU メモリ 相互接続 NVIDIA RTX 仮想ワークステーション(vWS)のサポート 最適な用途
H100 80GB 80 GB HBM3 @ 3.35 TBps NVLink Full Mesh @ 900 GBps ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 80 GB 80 GB HBM2e @ 1.9 TBps NVLink Full Mesh @ 600 GBps ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 40 GB 40 GB HBM2 @ 1.6 TBps NVLink Full Mesh @ 600 GBps ML のトレーニング、推論、HPC
L4 24 GB GDDR6 @ 300 GBps なし 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC
T4 16 GB GDDR6 @ 320 GBps なし 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換
V100 16 GB HBM2 @ 900 GBps NVLink Ring @ 300 GBps ML のトレーニング、推論、HPC
P4 8 GB GDDR5 @ 192 GBps なし リモート可視化のワークステーション、機械学習における推論、動画のコード変換
P100 16 GB HBM2 @ 732 GBps なし ML のトレーニング、推論、HPC、リモート可視化のワークステーション

Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。

パフォーマンスの比較グラフ

次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。

コンピューティング パフォーマンス

GPU モデル FP64 FP32 FP16 INT8
H100 80GB 34 TFLOPS 67 TFLOPS
A100 80 GB 9.7 TFLOPS 19.5 TFLOPS
A100 40GB 9.7 TFLOPS 19.5 TFLOPS
L4 0.5 TFLOPS* 30.3 TFLOPS
T4 0.25 TFLOPS* 8.1 TFLOPS
V100 7.8 TFLOPS 15.7 TFLOPS
P4 0.2 TFLOPS* 5.5 TFLOPS 22 TOPS
P100 4.7 TFLOPS 9.3 TFLOPS 18.7 TFLOPS

*FP64 コードを正しく動作させるため、T4、L4、P4 GPU アーキテクチャには、少数の FP64 ハードウェア ユニットが組み込まれています。
TeraOperations/秒。

Tensor Core のパフォーマンス

GPU モデル FP64 TF32 混合精度 FP16/FP32 INT8 INT4 FP8
H100 80GB 67 TFLOPS 989 TFLOPS 1,979 TFLOPS*、† 3,958 TOPS 3,958 TFLOPS
A100 80 GB 19.5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1248 TOPS
A100 40GB 19.5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1248 TOPS
L4 120 TFLOPS 242 TFLOPS*、† 485 TOPS 485 TFLOPS
T4 65 TFLOPS 130 TOPS 260 TOPS
V100 125 TFLOPS
P4
P100

* 混合精度トレーニングでは、NVIDIA H100、A100、L4 GPU は bfloat16 データ型もサポートします。
H100 GPU と L4 GPU では、構造的スパース性がサポートされており、これを使用してパフォーマンス値を 2 倍にできます。表示される値にはスパース性があります。スパース性なしでは、仕様は半減します。

次のステップ