このページは Cloud Translation API によって翻訳されました。

GPU VM を一括作成する

Linux Windows

一括作成プロセスを使用して、画像処理装置（GPU）がアタッチされている仮想マシン（VM）のグループを作成できます。一括作成プロセスでは、リクエストが不可能な場合に失敗する検証を事前で行います。また、リージョンフラグを使用する場合、一括作成 API は、リクエストに対応できる容量のあるゾーンを自動的に選択します。

一括作成の詳細については、VM の一括作成についてをご覧ください。GPU が割り当てられた VM の作成の詳細については、GPU が割り当てられたインスタンスの作成の概要をご覧ください。

始める前に

GPU が割り当てられたインスタンスの作成に関する制限事項とその他の前提条件（OS イメージの選択や GPU の割り当ての確認など）を確認するには、GPU が割り当てられたインスタンスの作成の概要をご覧ください。
一括作成の制限事項については、VM の一括作成についてをご覧ください。
まだ設定していない場合は、認証を設定します。認証では、 Google Cloud サービスと API にアクセスするための ID が確認されます。ローカル開発環境からコードまたはサンプルを実行するには、次のいずれかのオプションを選択して Compute Engine に対する認証を行います。
Select the tab for how you plan to use the samples on this page:
gcloud
1. Google Cloud CLI をインストールします。インストール後、次のコマンドを実行して Google Cloud CLI を初期化します。
  gcloud init
  外部 ID プロバイダ（IdP）を使用している場合は、まず連携 ID を使用して gcloud CLI にログインする必要があります。
  
  注: すでに gcloud CLI をインストールしている場合は、gcloud components update を実行して、最新バージョンがインストールされていることを確認してください。
2. Set a default region and zone.
REST

このページの REST API サンプルをローカル開発環境で使用するには、gcloud CLI に指定した認証情報を使用します。
詳細については、 Google Cloud 認証ドキュメントの REST を使用して認証するをご覧ください。

必要なロール

VM の作成に必要な権限を取得するには、プロジェクトに対する Compute インスタンス管理者（v1）（roles/compute.instanceAdmin.v1）IAM ロールを付与するよう管理者に依頼します。ロールの付与について詳しくは、プロジェクト、フォルダ、組織へのアクセス権を管理するをご覧ください。

この事前定義ロールには、VM の作成に必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

VM を作成するには、次の権限が必要です。

プロジェクトに対する compute.instances.create
カスタムイメージを使用して VM を作成する: イメージに対する compute.images.useReadOnly
スナップショットを使用して VM を作成する: スナップショットに対する compute.snapshots.useReadOnly
インスタンステンプレートを使用して VM を作成する: インスタンステンプレートに対する compute.instanceTemplates.useReadOnly
VM のサブネットを指定する: プロジェクトまたは選択したサブネットに対する compute.subnetworks.use
VM の静的 IP アドレスを指定する: プロジェクトに対する compute.addresses.use
VPC ネットワークの使用時に VM に外部 IP アドレスを割り当てる: プロジェクトまたは選択したサブネットに対する compute.subnetworks.useExternalIp
VM にレガシーネットワークを割り当てる: プロジェクトに対する compute.networks.use
レガシーネットワークを使用する際に VM に外部 IP アドレスを割り当てる: プロジェクトに対する compute.networks.useExternalIp
VM の VM インスタンスメタデータを設定する: プロジェクトに対する compute.instances.setMetadata
VM にタグを設定する: VM に対する compute.instances.setTags
VM にラベルを設定する: VM に対する compute.instances.setLabels
VM が使用するサービスアカウントを設定する: VM に対する compute.instances.setServiceAccount
VM 用の新しいディスクを作成する: プロジェクトに対する compute.disks.create
既存のディスクを読み取り専用モードまたは読み取り / 書き込みモードでアタッチする: ディスクに対する compute.disks.use
既存のディスクを読み取り専用モードでアタッチする: ディスクに対する compute.disks.useReadOnly

これらの権限は、カスタムロールや他の事前定義ロールを使用して取得することもできます。

概要

一括作成メソッドを使用して GPU が接続された VM を作成する場合は、リージョン（us-central1 など）または特定のゾーン（us-central1-a など）に VM を作成できます。

リージョンを指定すると、Compute Engine は GPU をサポートするリージョン内の任意のゾーンに VM を配置します。

マシンタイプ

アクセラレータ最適化マシンファミリーには複数のマシンタイプがあります。

各アクセラレータ最適化マシンタイプには、推奨されるワークロードタイプをサポートするために、特定モデルの NVIDIA GPU が接続されています。

AI と ML のワークロードグラフィックと可視化

AI と ML のワークロード	グラフィックと可視化
アクセラレータ最適化 A シリーズマシンタイプは、ハイパフォーマンスコンピューティング（HPC）、人工知能（AI）、機械学習（ML）のワークロード向けに設計されています。これらのマシンタイプの場合、GPU モデルはインスタンスに自動的にアタッチされます。	アクセラレータ最適化 G シリーズマシンタイプは、NVIDIA Omniverse シミュレーションワークロード、グラフィック処理を多用するアプリケーション、動画のコード変換、仮想デスクトップなどのワークロード向けに設計されています。これらのマシンタイプは、NVIDIA RTX 仮想ワークステーション（vWS）をサポートしています。これらのマシンタイプの場合、GPU モデルはインスタンスに自動的にアタッチされます。
A4X （NVIDIA GB200 Superchip）（`nvidia-gb200`） A4 （NVIDIA B200）（`nvidia-b200`） A3 Ultra （NVIDIA H200）（`nvidia-h200-141gb`） A3 Mega （NVIDIA H100）（`nvidia-h100-mega-80gb`） A3 High （NVIDIA H100）（`nvidia-h100-80gb`） A3 Edge （NVIDIA H100）（`nvidia-h100-80gb`） A2 Ultra （NVIDIA A100 80 GB）（`nvidia-a100-80gb`） A2 Standard （NVIDIA A100）（`nvidia-a100-40gb`）	G4（NVIDIA RTX PRO 6000）（`nvidia-rtx-pro-6000`）（`nvidia-rtx-pro-6000-vws`） G2（NVIDIA L4）（`nvidia-l4`）（`nvidia-l4-vws`）

アクセラレータ最適化 A シリーズマシンタイプは、ハイパフォーマンスコンピューティング（HPC）、人工知能（AI）、機械学習（ML）のワークロード向けに設計されています。

これらのマシンタイプの場合、GPU モデルはインスタンスに自動的にアタッチされます。

アクセラレータ最適化 G シリーズマシンタイプは、NVIDIA Omniverse シミュレーションワークロード、グラフィック処理を多用するアプリケーション、動画のコード変換、仮想デスクトップなどのワークロード向けに設計されています。これらのマシンタイプは、NVIDIA RTX 仮想ワークステーション（vWS）をサポートしています。

これらのマシンタイプの場合、GPU モデルはインスタンスに自動的にアタッチされます。

A4X （NVIDIA GB200 Superchip）
（nvidia-gb200）
A4 （NVIDIA B200）
（nvidia-b200）
A3 Ultra （NVIDIA H200）
（nvidia-h200-141gb）
A3 Mega （NVIDIA H100）
（nvidia-h100-mega-80gb）
A3 High （NVIDIA H100）
（nvidia-h100-80gb）
A3 Edge （NVIDIA H100）
（nvidia-h100-80gb）
A2 Ultra （NVIDIA A100 80 GB）
（nvidia-a100-80gb）
A2 Standard （NVIDIA A100）
（nvidia-a100-40gb）

G4（NVIDIA RTX PRO 6000）
（nvidia-rtx-pro-6000）
（nvidia-rtx-pro-6000-vws）
G2（NVIDIA L4）
（nvidia-l4）
（nvidia-l4-vws）

A4X、A4、A3 Ultra のグループを作成する

A4X、A4、A3 Ultra マシンシリーズのインスタンスを一括作成するには、AI Hypercomputer のドキュメントのデプロイオプションの概要をご覧ください。

A3、A2、G4、G2 VM のグループを作成する

このセクションでは、Google Cloud CLI または REST を使用して、A3 High、A3 Mega、A3 Edge、A2 Standard、A2 Ultra、G4、G2 マシンシリーズのインスタンスを一括作成する方法について説明します。

gcloud

VM のグループを作成するには、gcloud compute instances bulk create コマンドを使用します。パラメータとこのコマンドの使用方法については、VM の一括作成をご覧ください。

例

この例では、次の仕様を使用して、GPU がアタッチされた 2 つの VM を作成します。

VM 名: my-test-vm-1、my-test-vm-2
各 VM には 2 つの GPU が接続され、適切なアクセラレータ最適化マシンタイプを使用して指定されます。

gcloud compute instances bulk create \
    --name-pattern="my-test-vm-#" \
    --region=REGION \
    --count=2 \
    --machine-type=MACHINE_TYPE \
    --boot-disk-size=200 \
    --image=IMAGE \
    --image-project=IMAGE_PROJECT \
    --on-host-maintenance=TERMINATE

次のように置き換えます。

REGION: VM のリージョン。このリージョンは、選択したアクセラレータ最適化マシンタイプをサポートしている必要があります。
MACHINE_TYPE: 選択したマシンタイプ。次のいずれかの方法を選択します。
- A3 High マシンタイプ
- A3 Mega マシンタイプ
- A3 Edge マシンタイプ
- A2 標準マシンタイプ
- A2 Ultra マシンタイプ
- G4 マシンタイプ
- G2 マシンタイプ G2 マシンタイプはカスタムメモリもサポートしています。メモリは 1,024 MB の倍数とし、サポートされているメモリ範囲内に収める必要があります。たとえば、4 個の vCPU と 19 GB のメモリを備えた VM を作成するには、--machine-type=g2-custom-4-19456 を指定します。
IMAGE: GPU をサポートするオペレーティングシステムイメージ。

イメージファミリーの最新イメージを使用する場合は、--image フラグを --image-family フラグに置き換え、その値を GPU をサポートするイメージファミリーに設定します。例: --image-family=rocky-linux-8-optimized-gcp

カスタムイメージまたは Deep Learning VM Image を指定することもできます。
IMAGE_PROJECT: OS イメージが属する Compute Engine イメージプロジェクト。カスタムイメージまたは Deep Learning VM Image を使用する場合は、それらのイメージが属するプロジェクトを指定します。
VWS_ACCELERATOR_COUNT: 必要な仮想 GPU の数。

成功すると、出力は次のようになります。

NAME          ZONE
my-test-vm-1  us-central1-b
my-test-vm-2  us-central1-b
Bulk create request finished with status message: [VM instances created: 2, failed: 0.]

オプションフラグ

ワークロードまたはオペレーティングシステムのニーズに合わせてインスタンスをさらに構成するには、gcloud compute instances bulk create コマンドの実行時に次のフラグを 1 つ以上指定します。

機能	説明
プロビジョニングモデル	インスタンスのプロビジョニングモデルを設定します。`SPOT` または `FLEX_START` を指定します。`FLEX_START` は G4 インスタンスではサポートされていません。モデルを指定しない場合、標準モデルが使用されます。詳細については、 Compute Engine インスタンスのプロビジョニングモデルをご覧ください。 --provisioning-model=`PROVISIONING_MODEL`
仮想ワークステーション	グラフィックワークロード用の NVIDIA RTX 仮想ワークステーション（vWS）を指定します。この機能は、G4 インスタンスと G2 インスタンスでのみサポートされています。 --accelerator=type=`VWS_ACCELERATOR_TYPE`,count=`VWS_ACCELERATOR_COUNT` 次のように置き換えます。 `VWS_ACCELERATOR_TYPE` には、次のいずれかを選択します。 G4 インスタンスの場合は、`nvidia-rtx-pro-6000-vws` を指定します。 G2 インスタンスの場合は、`nvidia-l4-vws` を指定します。 `VWS_ACCELERATOR_COUNT` には、必要な仮想 GPU の数を指定します。
ローカル SSD	1 つ以上のローカル SSD をインスタンスにアタッチします。ローカル SSD は、高速のスクラッチディスクとして、または I/O ボトルネックを防止しながらデータを GPU にフィードする場合に使用できます。 --local-ssd=interface=nvme \ --local-ssd=interface=nvme \ --local-ssd=interface=nvme ... VM インスタンスごとにアタッチできるローカル SSD ディスクの最大数については、ローカル SSD の上限をご覧ください。
ネットワークインターフェース	複数のネットワークインターフェースをインスタンスにアタッチします。`g4-standard-384` インスタンスには、最大 2 つのネットワークインターフェースを接続できます。このフラグを使用すると、デュアルネットワークインターフェース（2x 200 Gbps）を持つインスタンスを作成できます。各ネットワークインターフェースは、一意の VPC ネットワークに存在する必要があります。 --network-interface=network=`VPC_NAME_1`,subnet=`SUBNET_NAME_1`,nic-type=GVNIC \ --network-interface=network=`VPC_NAME_2`,subnet=`SUBNET_NAME_2`,nic-type=GVNIC デュアルネットワークインターフェースは、`g4-standard-384` マシンタイプでのみサポートされています。次のように置き換えます。 `VPC_NAME`: VPC ネットワークの名前。 `SUBNET_NAME`: 指定された VPC ネットワークの一部であるサブネットの名前。

REST

必須パラメータによる instances.bulkInsert メソッドを使用して、1 つのゾーンに複数の VM を作成します。パラメータとこのコマンドの使用方法については、VM の一括作成をご覧ください。

例

この例では、次の仕様を使用して、GPU がアタッチされた 2 つの VM を作成します。

VM 名: my-test-vm-1、my-test-vm-2

各 VM には 2 つの GPU が接続され、適切なアクセラレータ最適化マシンタイプを使用して指定されます。

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/regions/REGION/instances/bulkInsert
{
"namePattern":"my-test-vm-#",
"count":"2",
"instanceProperties": {
  "machineType":MACHINE_TYPE,
  "disks":[
    {
      "type":"PERSISTENT",
      "initializeParams":{
        "diskSizeGb":"200",
        "sourceImage":SOURCE_IMAGE_URI
      },
      "boot":true
    }
  ],
  "name": "default",
  "networkInterfaces":
  [
    {
      "network": "projects/PROJECT_ID/global/networks/default"
    }
  ],
  "scheduling":{
    "onHostMaintenance":"TERMINATE",
    ["automaticRestart":true]
  }
}
}

次のように置き換えます。

PROJECT_ID: プロジェクト ID
REGION: VM のリージョン。このリージョンは、選択した GPU モデルをサポートしている必要があります。
MACHINE_TYPE: 選択したマシンタイプ。次のいずれかの方法を選択します。
- A3 High マシンタイプ
- A3 Mega マシンタイプ
- A3 Edge マシンタイプ
- A2 標準マシンタイプ
- A2 Ultra マシンタイプ
- G4 マシンタイプ
- G2 マシンタイプ。G2 マシンタイプはカスタムメモリもサポートしています。メモリは 1,024 MB の倍数とし、サポートされているメモリ範囲内に収める必要があります。たとえば、4 個の vCPU と 19 GB のメモリを備えたインスタンスのマシンタイプ名は g2-custom-4-19456 になります。
SOURCE_IMAGE_URI: 使用する特定のイメージまたはイメージファミリーの URI。

次に例を示します。
- 特定のイメージ: "sourceImage": "projects/rocky-linux-cloud/global/images/rocky-linux-8-optimized-gcp-v20220719"
- イメージファミリー: "sourceImage": "projects/rocky-linux-cloud/global/images/family/rocky-linux-8-optimized-gcp"
イメージファミリーを指定すると、Compute Engine はそのファミリー内のサポート対象の最新の OS イメージから VM を作成します。イメージファミリーを使用するタイミングについて詳しくは、イメージファミリーのベストプラクティスをご覧ください。

オプションフラグ

ワークロードまたはオペレーティングシステムのニーズに合わせてインスタンスをさらに構成するには、instances.bulkInsert メソッドを実行するときに、次のフラグを 1 つ以上含めます。

機能	説明
プロビジョニングモデル	費用を削減するには、リクエストの `scheduling` オブジェクトに `"provisioningModel": "PROVISIONING_MODEL"` フィールドを追加して、別のプロビジョニングモデルを指定します。Spot VM の作成を指定すると、`onHostMaintenance` フィールドと `automaticRestart` フィールドは無視されます。詳細については、 Compute Engine インスタンスのプロビジョニングモデルをご覧ください。 "scheduling": { "onHostMaintenance": "terminate", "provisioningModel": "`PROVISIONING_MODEL`" } `PROVISIONING_MODEL` を次のいずれかに置き換えます。 `STANDARD`: 標準インスタンス（デフォルト）。 `SPOT`: Spot VM。 `FLEX_START`: Flex Start VM。Flex Start VM は最大 7 日間実行され、GPU などの需要の高いリソースを割引料金で取得できます。このプロビジョニングモデルは、G4 インスタンスではサポートされていません。
仮想ワークステーション	グラフィックワークロード用の NVIDIA RTX 仮想ワークステーション（vWS）を指定します。この機能は、G4 インスタンスと G2 インスタンスでのみサポートされています。 "guestAccelerators": [ { "acceleratorCount": `VWS_ACCELERATOR_COUNT`, "acceleratorType": "projects/`PROJECT_ID`/zones/`ZONE`/acceleratorTypes/`VWS_ACCELERATOR_TYPE`" } ] 次のように置き換えます。 `VWS_ACCELERATOR_TYPE` には、次のいずれかを選択します。 G4 インスタンスの場合は、`nvidia-rtx-pro-6000-vws` を指定します。 G2 インスタンスの場合は、`nvidia-l4-vws` を指定します。 `VWS_ACCELERATOR_COUNT` には、必要な仮想 GPU の数を指定します。
ローカル SSD	1 つ以上のローカル SSD をインスタンスにアタッチします。ローカル SSD は、高速のスクラッチディスクとして、または I/O ボトルネックを防止しながらデータを GPU にフィードする場合に使用できます。 { "type": "SCRATCH", "autoDelete": true, "initializeParams": { "diskType": "projects/`PROJECT_ID`/zones/`ZONE`/diskTypes/local-nvme-ssd" } } VM インスタンスごとにアタッチできるローカル SSD ディスクの最大数については、ローカル SSD の上限をご覧ください。
ネットワークインターフェース	複数のネットワークインターフェースをインスタンスにアタッチします。`g4-standard-384` インスタンスには、最大 2 つのネットワークインターフェースを接続できます。これにより、デュアルネットワークインターフェース（2x 200 Gbps）を持つインスタンスが作成されます。各ネットワークインターフェースは、一意の VPC ネットワークに存在する必要があります。 "networkInterfaces": [ { "network": "projects/`PROJECT_ID`/global/networks/`VPC_NAME_1`", "subnetwork": "projects/`PROJECT_ID`/regions/`REGION`/subnetworks/`SUBNET_NAME_1`", "nicType": "GVNIC" }, { "network": "projects/`PROJECT_ID`/global/networks/`VPC_NAME_2`", "subnetwork": "projects/`PROJECT_ID`/regions/`REGION`/subnetworks/`SUBNET_NAME_2`", "nicType": "GVNIC" } ] デュアルネットワークインターフェースは、`g4-standard-384` マシンタイプでのみサポートされています。次のように置き換えます。 `VPC_NAME`: VPC ネットワークの名前。 `SUBNET_NAME`: 指定された VPC ネットワークの一部であるサブネットの名前。

N1 汎用 VM のグループを作成する

GPU が接続された VM のグループを作成するには、Google Cloud CLI または ERST を使用します。

このセクションでは、次の GPU タイプを使用して VM を作成する方法について説明します。

NVIDIA GPU:

NVIDIA T4: nvidia-tesla-t4
NVIDIA P4: nvidia-tesla-p4
NVIDIA P100: nvidia-tesla-p100
NVIDIA V100: nvidia-tesla-v100

NVIDIA RTX 仮想ワークステーション（vWS）（旧称 NVIDIA GRID）:

NVIDIA T4 仮想ワークステーション: nvidia-tesla-t4-vws
NVIDIA P4 仮想ワークステーション: nvidia-tesla-p4-vws
NVIDIA P100 仮想ワークステーション: nvidia-tesla-p100-vws

これらの仮想ワークステーションの場合、NVIDIA RTX 仮想ワークステーション（vWS）ライセンスがインスタンスに自動的に追加されます。

gcloud

例

次の例では、以下の仕様を使用して、GPU が接続された 2 つの VM を作成します。

VM 名: my-test-vm-1、my-test-vm-2
GPU をサポートする us-central1 の任意のゾーンに作成された VM
各 VM に 2 つの T4 GPU が接続されています。この GPU は、アクセラレータタイプとアクセラレータ数のフラグを使用して指定します。
各 VM に GPU ドライバがインストールされている
各 VM が Deep Learning VM イメージ pytorch-latest-gpu-v20211028-debian-10 を使用する

gcloud compute instances bulk create \
    --name-pattern="my-test-vm-#" \
    --count=2 \
    --region=us-central1 \
    --machine-type=n1-standard-2 \
    --accelerator type=nvidia-tesla-t4,count=2 \
    --boot-disk-size=200 \
    --metadata="install-nvidia-driver=True" \
    --scopes="https://www.googleapis.com/auth/cloud-platform" \
    --image=pytorch-latest-gpu-v20211028-debian-10 \
    --image-project=deeplearning-platform-release \
    --on-host-maintenance=TERMINATE --restart-on-failure

成功すると、出力は次のようになります。

NAME          ZONE
my-test-vm-1  us-central1-b
my-test-vm-2  us-central1-b
Bulk create request finished with status message: [VM instances created: 2, failed: 0.]

REST

例

次の例では、以下の仕様を使用して、GPU が接続された 2 つの VM を作成します。

VM 名: my-test-vm-1、my-test-vm-2
GPU をサポートする us-central1 の任意のゾーンに作成された VM
各 VM に 2 つの T4 GPU が接続されています。この GPU は、アクセラレータタイプとアクセラレータ数のフラグを使用して指定します。
各 VM に GPU ドライバがインストールされている
各 VM が Deep Learning VM イメージ pytorch-latest-gpu-v20211028-debian-10 を使用する

PROJECT_ID は、実際のプロジェクト ID に置き換えます。

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/regions/us-central1/instances/bulkInsert

{
    "namePattern":"my-test-vm-#",
    "count":"2",
    "instanceProperties": {
      "machineType":"n1-standard-2",
      "disks":[
        {
          "type":"PERSISTENT",
          "initializeParams":{
            "diskSizeGb":"200",
            "sourceImage":"projects/deeplearning-platform-release/global/images/pytorch-latest-gpu-v20211028-debian-10"
          },
          "boot":true
        }
      ],
      "name": "default",
      "networkInterfaces":
      [
        {
          "network": "projects/PROJECT_ID/global/networks/default"
        }
      ],
      "guestAccelerators":
      [
        {
          "acceleratorCount": 2,
          "acceleratorType": "nvidia-tesla-t4"
        }
      ],
      "scheduling":{
        "onHostMaintenance":"TERMINATE",
        "automaticRestart":true
      },
      "metadata":{
        "items":[
          {
            "key":"install-nvidia-driver",
            "value":"True"
          }
        ]
      }
  }
 }

次のステップ

VM と GPU の実際の使用量と予測される使用量を表示する方法を確認する。

GPU VM を一括作成する

始める前に

gcloud

REST

必要なロール

必要な権限

概要

マシンタイプ

A4X、A4、A3 Ultra のグループを作成する

A3、A2、G4、G2 VM のグループを作成する

gcloud

オプション フラグ

REST

オプション フラグ

N1 汎用 VM のグループを作成する

gcloud

REST

次のステップ

オプションフラグ

オプションフラグ