GPU マシンタイプ

Compute Engine で GPU を使用すると、ML やデータ処理など、VM 上の特定のワークロードを高速化できます。GPU を使用するには、GPU を接続したアクセラレータ最適化 VM をデプロイするか、GPU を N1 汎用 VM に接続します。

Compute Engine では、VM で GPU と関連メモリを直接制御できるように、GPU が VM にパススルーモードで提供されます。

Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。

3D 可視化、3D レンダリング、仮想アプリケーションなどのグラフィックを多用するワークロードが存在する場合、NVIDIA RTX 仮想ワークステーション（旧称 NVIDIA GRID）を使用できます。

このドキュメントでは、Compute Engine で使用可能な別の GPU VM の概要について説明します。

Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。

コンピューティングワークロード用 GPU

コンピューティングワークロードの場合、GPU は次のマシンタイプでサポートされています。

A4 VM: これらの VM には NVIDIA B200 GPU が自動的に接続されます。
A3 VM: これらの VM には NVIDIA H100 80 GB または NVIDIA H200 141 GB GPU が自動的にアタッチされます。
A2 VM: これらの VM には、NVIDIA A100 80 GB または NVIDIA A100 40 GB GPU が自動的にアタッチされます。
G2 VM: これらの VM には NVIDIA L4 GPU が自動的にアタッチされます。
N1 VM: これらの VM では、NVIDIA T4、NVIDIA V100、NVIDIA P100、NVIDIA P4 の GPU モデルをアタッチできます。

A4 マシンシリーズ

NVIDIA B200 GPU を使用するには、A4 アクセラレータ最適化マシンタイプを使用する必要があります。各 A4 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。

マシンタイプ	GPU 数	GPU メモリ^* （GB HBM3e）	vCPU 数^†	VM メモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）^‡
`a4-highgpu-8g`	8	1,440	224	3,968	12,000	10	3,600

^*GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードでの帯域幅の高い需要に対応するように設計されています。
^†vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェアハイパースレッドとして実装されます。
^‡ 最大下り（外向き）帯域幅は許容数を超えることはできません。実際の下り（外向き）帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅をご覧ください。

A3 マシンシリーズ

NVIDIA H100 80 GB GPU または NVIDIA H200 141 GB GPU を使用するには、A3 アクセラレータ最適化マシンタイプを使用する必要があります。各 A2 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。

A3 Ultra マシンタイプ

NVIDIA H200 141 GB GPU を使用するには、A3 Ultra マシンタイプを使用する必要があります。このマシンタイプには H200 141 GB GPU（nvidia-h200-141gb）がアタッチされており、高いネットワークパフォーマンスが提供されます。基盤モデルのトレーニングとサービングに最適です。

マシンタイプ	GPU 数	GPU メモリ^* （GB HBM3e）	vCPU 数^†	VM メモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）^‡
`a3-ultragpu-8g`	8	1128	224	2,952	12,000	10	3,600

A3 Mega、High、Edge マシンタイプ

NVIDIA H100 80 GB を使用する場合は、次のオプションがあります。

A3 Mega: これらのマシンタイプには H100 80 GB GPU（nvidia-h100-mega-80gb）がアタッチされており、大規模なトレーニングとサービングワークロードに最適です。
A3 High: これらのマシンタイプには H100 80 GB GPU（nvidia-h100-80gb）がアタッチされており、トレーニングとサービングタスクの両方に適しています。
A3 Edge: これらのマシンタイプには H100 80 GB GPU（nvidia-h100-80gb）がアタッチされており、サービング専用に設計されています。限定されたリージョンセットで使用できます。

A3 Mega

ヒント: a3-megagpu-8g マシンタイプをプロビジョニングする場合は、これらの VM のクラスタを使用し、Google Kubernetes Engine（GKE）や Slurm などのスケジューラでデプロイすることをおすすめします。これらのオプションの詳しい使用方法については以下をご覧ください。

Google Kubernetes Engine クラスタを作成するには、GKE を使用して A3 Mega クラスタをデプロイするをご覧ください。
Slurm クラスタを作成するには、A3 Mega Slurm クラスタをデプロイするをご覧ください。

マシンタイプ	GPU 数	GPU メモリ^* （GB HBM3）	vCPU 数^†	VM メモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）^‡
`a3-megagpu-8g`	8	640	208	1,872	6,000	9	1,800

A3 High

ヒント: a3-highgpu-1g、a3-highgpu-2g、または a3-highgpu-4g マシンタイプをプロビジョニングする場合は、Spot VM を使用して VM を作成するか、Dynamic Workload Scheduler（DWS）を利用する機能（MIG でのサイズ変更リクエストなど）を使用する必要があります。これらのオプションの詳しい使用方法については以下をご覧ください。

Spot VM を作成するには、アクセラレータ最適化 VM を作成するときにプロビジョニングモデルを SPOT に設定します。
DWS を使用する MIG でサイズ変更リクエストを作成するには、GPU VM を使用する MIG を作成するをご覧ください。

マシンタイプ	GPU 数	GPU メモリ^* （GB HBM3）	vCPU 数^†	VM メモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）^‡
`a3-highgpu-1g`	1	80	26	234	750	1	25
`a3-highgpu-2g`	2	160	52	468	1,500	1	50
`a3-highgpu-4g`	4	320	104	936	3,000	1	100
`a3-highgpu-8g`	8	640	208	1,872	6,000	5	1,000

A3 Edge

マシンタイプ	GPU 数	GPU メモリ^* （GB HBM3）	vCPU 数^†	VM メモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）^‡
`a3-edgegpu-8g`	8	640	208	1,872	6,000	5	800: asia-south1 と northamerica-northeast2 の場合 400: その他のすべての A3 Edge リージョン

A2 マシンシリーズ

Google Cloudで NVIDIA A100 GPU を使用するには、A2 アクセラレータ最適化マシンタイプを使用する必要があります。各 A2 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。

A2 マシンシリーズは次の 2 つのタイプで用意されています。

A2 Ultra: A100 80 GB GPU（nvidia-a100-80gb）とローカル SSD ディスクがアタッチされるマシンタイプです。
A2 Standard: A100 40 GB GPU（nvidia-tesla-a100）がアタッチされるマシンタイプです。

A2 Ultra

マシンタイプ	GPU 数	GPU メモリ^* （GB HBM3）	vCPU 数^†	VM メモリ（GB）	アタッチされたローカル SSD（GiB）	最大ネットワーク帯域幅（Gbps）^‡
`a2-ultragpu-1g`	1	80	12	170	375	24
`a2-ultragpu-2g`	2	160	24	340	750	32
`a2-ultragpu-4g`	4	320	48	680	1,500	50
`a2-ultragpu-8g`	8	640	96	1,360	3,000	100

A2 標準

マシンタイプ	GPU 数	GPU メモリ^* （GB HBM3）	vCPU 数^†	VM メモリ（GB）	アタッチされたローカル SSD（GiB）	最大ネットワーク帯域幅（Gbps）^‡
`a2-highgpu-1g`	1	40	12	85	はい	24
`a2-highgpu-2g`	2	80	24	170	はい	32
`a2-highgpu-4g`	4	160	48	340	はい	50
`a2-highgpu-8g`	8	320	96	680	はい	100
`a2-megagpu-16g`	16	640	96	1,360	はい	100

^* GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

G2 マシンシリーズ

NVIDIA L4 GPU（nvidia-l4 または nvidia-l4-vws）を使用するには、G2 アクセラレータ最適化マシンタイプを使用する必要があります。

各 G2 マシンタイプには、固定数の NVIDIA L4 GPU と vCPU がアタッチされます。各 G2 マシンタイプにはデフォルトのメモリとカスタムメモリ範囲もあります。カスタムメモリ範囲はマシンタイプごとに VM に割り当てることができるメモリの量を定義します。カスタムメモリは VM の作成時に指定できます。

マシンタイプ	GPU 数	GPU メモリ^*（GB GDDR6）	vCPU 数^†	デフォルトの VM メモリ（GB）	カスタム VM メモリ範囲（GB）	サポート対象の最大ローカル SSD（GiB）	最大ネットワーク帯域幅（Gbps）^‡
`g2-standard-4`	1	24	4	16	16～32	375	10
`g2-standard-8`	1	24	8	32	32～54	375	16
`g2-standard-12`	1	24	12	48	48～54	375	16
`g2-standard-16`	1	24	16	64	54～64	375	32
`g2-standard-24`	2	48	24	96	96～108	750	32
`g2-standard-32`	1	24	32	128	96～128	375	32
`g2-standard-48`	4	96	48	192	192～216	1,500	50
`g2-standard-96`	8	192	96	384	384～432	3,000	100

N1 マシンシリーズ

N1 共有コアマシンタイプを除き、次の GPU モデルを N1 マシンタイプに接続できます。

GPU 数が少ない N1 VM の場合は、vCPU の最大数に制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きい VM インスタンスを作成できます。

N1+T4 GPU

次の VM 構成で、NVIDIA T4 GPU を N1 汎用 VM に接続できます。

アクセラレータタイプ	GPU 数	GPU メモリ^*（GB GDDR6）	vCPU 数	VM メモリ（GB）	サポート対象のローカル SSD
`nvidia-tesla-t4` または `nvidia-tesla-t4-vws`	1	16	1～48	1～312	はい
	2	32	1～48	1～312	はい
	4	64	1～96	1～624	○

N1+P4 GPU

次の VM 構成で、NVIDIA P4 GPU を N1 汎用 VM に接続できます。

アクセラレータタイプ	GPU 数	GPU メモリ^*（GB GDDR5）	vCPU 数	VM メモリ（GB）	サポート対象のローカル SSD^†
`nvidia-tesla-p4` または `nvidia-tesla-p4-vws`	1	8	1～24	1～156	はい
	2	16	1～48	1～312	はい
	4	32	1～96	1～624	はい

^*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

^†NVIDIA P4 GPU が接続されている VM の場合、ローカル SSD ディスクはゾーン us-central1-c と northamerica-northeast1-b でのみサポートされます。

N1+V100 GPU

次の VM 構成で、NVIDIA V100 GPU を N1 汎用 VM に接続できます。

アクセラレータタイプ	GPU 数	GPU メモリ^*（GB HBM2）	vCPU 数	VM メモリ（GB）	サポート対象のローカル SSD^†
`nvidia-tesla-v100`	1	16	1～12	1～78	はい
	2	32	1～24	1～156	はい
	4	64	1～48	1～312	はい
	8	128	1～96	1～624	○

^* GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
^† NVIDIA V100 GPU がアタッチされている VM の場合、us-east1-c ではローカル SSD ディスクがサポートされません。

N1+P100 GPU

次の VM 構成で、NVIDIA P100 GPU を N1 汎用 VM に接続できます。

一部の NVIDIA P100 GPU では、一部の構成で使用できる CPU とメモリの最大値が、GPU リソースが実行されているゾーンによって異なります。

アクセラレータタイプ GPU 数 GPU メモリ^*（GB HBM2） vCPU 数 VM メモリ（GB）サポート対象のローカル SSD

nvidia-tesla-p100 または
nvidia-tesla-p100-vws 1 16 1～16 1～104 はい

2 32 1～32 1～208 はい

アクセラレータタイプ	GPU 数	GPU メモリ^*（GB HBM2）	vCPU 数	VM メモリ（GB）	サポート対象のローカル SSD
`nvidia-tesla-p100` または `nvidia-tesla-p100-vws`	1	16	1～16	1～104	はい
2	32	1～32	1～208	はい
4	64	1～64 （us-east1-c、europe-west1-d、europe-west1-b） 1～96 （すべての P100 ゾーン）	1～208 （us-east1-c、europe-west1-d、europe-west1-b） 1～624 （すべての P100 ゾーン）	○

1～64
（us-east1-c、europe-west1-d、europe-west1-b）

1～96
（すべての P100 ゾーン）

1～208
（us-east1-c、europe-west1-d、europe-west1-b）

1～624
（すべての P100 ゾーン）

○

グラフィックワークロード用の NVIDIA RTX 仮想ワークステーション（vWS）

3D 可視化などのグラフィックを多用するワークロードが存在する場合は、NVIDIA RTX 仮想ワークステーション（vWS）（旧称 NVIDIA GRID）を使用する仮想ワークステーションを作成できます。仮想ワークステーションを作成すると、NVIDIA RTX 仮想ワークステーション（vWS）ライセンスが VM に自動的に追加されます。

仮想ワークステーションの料金については、GPU の料金ページをご覧ください。

グラフィックワークロードの場合、NVIDIA RTX 仮想ワークステーション（vWS）モデルは以下のシリーズで使用できます。

G2 マシンシリーズ: G2 マシンタイプでは、NVIDIA L4 仮想ワークステーション（vWS）を有効にできます。nvidia-l4-vws
N1 マシンシリーズ: N1 マシンタイプの場合、次の仮想ワークステーションを有効にできます。
- NVIDIA T4 仮想ワークステーション: nvidia-tesla-t4-vws
- NVIDIA P100 仮想ワークステーション: nvidia-tesla-p100-vws
- NVIDIA P4 仮想ワークステーション: nvidia-tesla-p4-vws

一般的な比較表

次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的なワークロードタイプを示します。

GPU モデル	GPU メモリ	相互接続	最適な用途
B200	180 GB HBM3e @ 8 TBps	NVLink Full Mesh @ 1,800 GBps	LLM、Recommender、HPC の大規模な分散トレーニングと推論
H200 141GB	141 GB HBM3e @ 4.8 TBps	NVLink Full Mesh @ 900 GBps	ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
H100 80GB	80 GB HBM3 @ 3.35 TBps	NVLink Full Mesh @ 900 GBps	ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 80 GB	80 GB HBM2e @ 1.9 TBps	NVLink Full Mesh @ 600 GBps	ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 40 GB	40 GB HBM2 @ 1.6 TBps	NVLink Full Mesh @ 600 GBps	ML のトレーニング、推論、HPC
L4	24 GB GDDR6 @ 300 GBps	なし	ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC
T4	16 GB GDDR6 @ 320 GBps	なし	ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換
V100	16 GB HBM2 @ 900 GBps	NVLink Ring @ 300 GBps	ML のトレーニング、推論、HPC
P4	8 GB GDDR5 @ 192 GBps	なし	リモート可視化のワークステーション、ML における推論、動画のコード変換
P100	16 GB HBM2 @ 732 GBps	なし	ML のトレーニング、推論、HPC、リモート可視化のワークステーション

Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。

パフォーマンスの比較グラフ

次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。

コンピューティングパフォーマンス

GPU モデル	FP64	FP32	FP16	INT8
B200	40 TFLOPS	80 TFLOPS
H200 141GB	34 TFLOPS	67 TFLOPS
H100 80GB	34 TFLOPS	67 TFLOPS
A100 80 GB	9.7 TFLOPS	19.5 TFLOPS
A100 40 GB	9.7 TFLOPS	19.5 TFLOPS
L4	0.5 TFLOPS^*	30.3 TFLOPS
T4	0.25 TFLOPS^*	8.1 TFLOPS
V100	7.8 TFLOPS	15.7 TFLOPS
P4	0.2 TFLOPS^*	5.5 TFLOPS		22 TOPS^†
P100	4.7 TFLOPS	9.3 TFLOPS	18.7 TFLOPS

^*FP64 コードを正しく動作させるため、T4、L4 および P4 GPU アーキテクチャには、少数の FP64 ハードウェアユニットが組み込まれています。
^†TeraOperations/秒

Tensor Core のパフォーマンス

GPU モデル	FP64	TF32	混合精度 FP16/FP32	INT8	INT4	FP8
B200	40 TFLOPS	2,200 TFLOPS^†	4,500 TFLOPS^{*, †}	9,000 TFLOPS^†		9,000 TFLOPS^†
H200 141GB	67 TFLOPS	989 TFLOPS^†	1,979 TFLOPS^*、†	3,958 TOPS^†		3,958 TFLOPS^†
H100 80GB	67 TFLOPS	989 TFLOPS^†	1,979 TFLOPS^*、†	3,958 TOPS^†		3,958 TFLOPS^†
A100 80 GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS^*	624 TOPS	1,248 TOPS
A100 40 GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS^*	624 TOPS	1,248 TOPS
L4		120 TFLOPS^†	242 TFLOPS^*、†	485 TOPS^†		485 TFLOPS^†
T4			65 TFLOPS	130 TOPS	260 TOPS
V100			125 TFLOPS
P4
P100

^* 混合適合率トレーニングでは、NVIDIA B200、H200、H100、A100、L4 GPU は bfloat16 データ型もサポートします。
^† NVIDIA B200、H200、H100、L4 GPU では、構造的スパース性がサポートされており、これを使用してパフォーマンス値を 2 倍にできます。記載されているのは、スパース性ありの値です。スパース性なしでは、仕様は半減します。

次のステップ

Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。
GPU のリージョンとゾーンの可用性を確認する。
ネットワーク帯域幅と GPU を確認する。
GPU の料金について学習する。