本頁面由 Cloud Translation API 翻譯而成。

建立 A3 Ultra 或 A4 執行個體

本文說明如何使用 A3 Ultra 或 A4 機器系列建立附加 GPU 的執行個體。如要進一步瞭解如何建立附加 GPU 的執行個體，請參閱建立附加 GPU 的執行個體總覽。

事前準備

如要查看建立附加 GPU 的執行個體的限制和其他必要步驟 (例如選取 OS 映像檔和檢查 GPU 配額)，請參閱「建立附加 GPU 的執行個體總覽」。
如果尚未設定，請先設定驗證機制。「驗證」是指驗證身分，以便存取 Google Cloud 服務和 API 的程序。如要從本機開發環境執行程式碼或範例，請選取下列任一選項，以便對 Compute Engine 進行驗證：

Select the tab for how you plan to use the samples on this page:
Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud
1. After installing the Google Cloud CLI, initialize it by running the following command:
  gcloud init
  If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
  
  Note: If you installed the gcloud CLI previously, make sure you have the latest version by running gcloud components update.
2. Set a default region and zone.

必要的角色

如要取得建立執行個體所需的權限，請要求管理員為您授予專案的 Compute 執行個體管理員 (v1) (roles/compute.instanceAdmin.v1) IAM 角色。如要進一步瞭解如何授予角色，請參閱「管理專案、資料夾和機構的存取權」。

這個預先定義的角色包含建立執行個體所需的權限。如要查看確切的必要權限，請展開「必要權限」部分：

所需權限

如要建立執行個體，您必須具備下列權限：

compute.instances.create 專案
如要使用自訂映像檔建立 VM，請按照下列步驟操作： compute.images.useReadOnly 在映像檔上
如要使用快照建立 VM，請按照下列步驟操作： compute.snapshots.useReadOnly 在快照上
如要使用執行個體範本建立 VM，請按照下列步驟操作： compute.instanceTemplates.useReadOnly 在執行個體範本上
如要將舊版網路指派給 VM： compute.networks.use 專案上
如要為 VM 指定靜態 IP 位址： compute.addresses.use 專案上的
如要在使用舊版網路時將外部 IP 位址指派給 VM，請按照下列步驟操作： compute.networks.useExternalIp 專案
如要為 VM 指定子網路： compute.subnetworks.use 在專案或所選子網路上
如要在使用虛擬私有雲網路時，將外部 IP 位址指派給 VM，請按照下列步驟操作： compute.subnetworks.useExternalIp 在專案或所選子網路上
如要為 VM 設定 VM 執行個體中繼資料，請按照下列步驟操作： compute.instances.setMetadata 在專案中
如要為 VM 設定標記： compute.instances.setTags 在 VM 上
如要為 VM 設定標籤，請按照下列步驟操作： compute.instances.setLabels VM 上
如要設定 VM 使用的服務帳戶，請按照下列步驟操作： compute.instances.setServiceAccount 在 VM 上
如要為 VM 建立新磁碟，請按照下列步驟操作： compute.disks.create 專案
如要以唯讀或讀寫模式連接現有磁碟：磁碟的 compute.disks.use 權限
如要以唯讀模式連接現有磁碟，請執行下列操作： compute.disks.useReadOnly 磁碟上的權限

您或許還可透過自訂角色或其他預先定義的角色取得這些權限。

建立 A3 Ultra 或 A4 執行個體

您可以透過下列建立選項使用 A3 Ultra 或 A4 執行個體，每個選項都有不同的建立程序、資源可用性和價格。根據工作負載，找出要使用的選項。

如果您需要執行需要極低延遲時間的大型模型訓練和推論等長時間執行的 AI 和 ML 工作負載，建議您建立可使用叢集總監提供的功能和服務的 VM 或叢集。有了 Cluster Director，您就能預留密集配置的機器，提供拓樸圖相關的排程，並強化對這些預留容量的監控和維護。如要進一步瞭解 Cluster Director，請參閱 AI 超級電腦說明文件中的「Cluster Director」。

如需建立 A3 Ultra 或 A4 執行個體的操作說明，請參閱 AI Hypercomputer 說明文件中的「建立 VM 和叢集的總覽」。
如果您需要執行較低優先順序的 AI 和 ML 工作負載，請選擇下列其中一個選項：
- 如果工作負載可隨時啟動，且需要啟動特定數量的 VM，您可以在代管執行個體群組 (MIG) 中使用調整大小要求。您可以透過 MIG 大小調整要求，要求 Compute Engine 在可用資源可用時，一次將 VM 全部新增至 MIG。這些 VM 最多可運作七天。資源是從安全的資源池提供，因此相較於按需要求，您取得 GPU 的機會更高。
  
  如要進一步瞭解 MIG 大小調整要求，請參閱「關於 MIG 中的大小調整要求」。
- 如果您的工作負載可容許服務中斷，那麼使用 Spot VM 就能大幅節省費用。雖然您可以視需要建立及刪除 Spot VM，但 Spot VM 是有限的資源，不一定隨時可用，而且 Compute Engine 隨時可能會搶佔 (自動停止或刪除) Spot VM。如要進一步瞭解 Spot VM，請參閱「Spot VM」。
  
  如要瞭解如何使用 Spot VM 建立 A3 Ultra 或 A4 執行個體，請參閱本文的「使用 Spot VM 建立 A3 Ultra 或 A4 執行個體」一節。

使用 Spot VM 建立 A3 Ultra 或 A4 執行個體

如要使用 Spot VM 建立 A3 Ultra 或 A4 執行個體，請完成下列各節中的步驟：

建立虛擬私有雲網路。
建立 Spot VM。
準備含有連接 GPU 的 Spot VM。

建立虛擬私有雲網路

提示：如果您要設定快速測試，可以略過這個步驟，改為指定單一 NIC --network-interface=nic-type=GVNIC。

如果是 A4 或 A3 Ultra 機器類型，您必須為下列網路介面建立三個 VPC 網路：

2 個 VPC 網路，用於 gVNIC 網路介面 (NIC)。這些端點用於主機與主機之間的通訊。
CX7 NIC 需要 1 個採用 RDMA 網路設定檔的 VPC 網路。這個網路必須有 8 個子網路，每個 CX7 NIC 一個子網路，用於 GPU 到 GPU 的通訊。

如要進一步瞭解 NIC 配置，請參閱「查看網路頻寬和 NIC 配置」。

您可以按照操作說明手動設定網路，也可以使用提供的指令碼自動設定。

操作說明

如要建立網路，請按照下列操作說明進行：

如要為 gVNIC 建立虛擬私有雲網路，請參閱「建立及管理虛擬私有雲網路」。
如要使用 RDMA 網路設定檔建立 VPC 網路，請參閱「為 RDMA NIC 建立虛擬私有雲網路」。

對於這些 VPC 網路，建議您將最大傳輸單位 (MTU) 設為較大的值。針對 A4 或 A3 Ultra 機器類型，建議的 MTU 為 8896 位元組。如要查看其他 GPU 機器類型的建議 MTU 設定，請參閱「GPU 機器類型的 MTU 設定」。

指令碼

如要建立網路，您可以使用下列指令碼。

  #!/bin/bash

  # Create standard VPCs (network and subnets) for the gVNICs
  for N in $(seq 0 1); do
    gcloud compute networks create GVNIC_NAME_PREFIX-net-$N \
      --subnet-mode=custom \
      --mtu=8896

    gcloud compute networks subnets create GVNIC_NAME_PREFIX-sub-$N \
      --network=GVNIC_NAME_PREFIX-net-$N \
      --region=REGION \
      --range=10.$N.0.0/16

    gcloud compute firewall-rules create GVNIC_NAME_PREFIX-internal-$N \
      --network=GVNIC_NAME_PREFIX-net-$N \
      --action=ALLOW \
      --rules=tcp:0-65535,udp:0-65535,icmp \
      --source-ranges=10.0.0.0/8
  done

  # Create SSH firewall rules
  gcloud compute firewall-rules create GVNIC_NAME_PREFIX-ssh \
    --network=GVNIC_NAME_PREFIX-net-0 \
    --action=ALLOW \
    --rules=tcp:22 \
    --source-ranges=IP_RANGE

  # Assumes that an external IP is only created for vNIC 0
  gcloud compute firewall-rules create GVNIC_NAME_PREFIX-allow-ping-net-0 \
    --network=GVNIC_NAME_PREFIX-net-0 \
    --action=ALLOW \
    --rules=icmp \
    --source-ranges=IP_RANGE

  # List and make sure network profiles exist
  gcloud compute network-profiles list

  # Create network for CX-7
  gcloud compute networks create RDMA_NAME_PREFIX-mrdma \
    --network-profile=ZONE-vpc-roce \
    --subnet-mode custom \
    --mtu=8896

  # Create subnets.
  for N in $(seq 0 7); do
    gcloud compute networks subnets create RDMA_NAME_PREFIX-mrdma-sub-$N \
      --network=RDMA_NAME_PREFIX-mrdma \
      --region=REGION \
      --range=10.$((N+2)).0.0/16 # offset to avoid overlap with gVNICs
  done

更改下列內容：

GVNIC_NAME_PREFIX：用於 gVNIC 的標準虛擬私有雲網路和子網路的自訂名稱前置字串。
RDMA_NAME_PREFIX：在使用 CX7 NIC 的 RDMA 網路設定檔時，用於虛擬私有雲網路和子網路的自訂名稱前置字串。
ZONE：指定可用區，其中包含您要使用的機器類型。如要瞭解地區相關資訊，請參閱「依地區和區域劃分的 GPU 可用性」。
REGION：您要建立子網路的地區。此區域必須與指定的區域相符。舉例來說，如果您的區域為 europe-west1-b，則地區為 europe-west1。
IP_RANGE：用於 SSH 防火牆規則的 IP 範圍。

建立 Spot VM

如要建立 Spot VM，請使用下列任一方法：

主控台

前往 Google Cloud 控制台的「Create an instance」頁面。

前往「Create an instance」

「Create an instance」畫面隨即顯示，並顯示「Machine configuration」窗格。
在「Machine configuration」窗格中，完成下列步驟：
1. 指定執行個體的「名稱」。請參閱「資源命名慣例」。
2. 選取要保留容量的「Region」(區域)和「Zone」(可用區)。請參閱可用的GPU 區域和可用區清單。
3. 按一下「GPU」分頁標籤，然後完成下列步驟：
  1. 在「GPU type」清單中，選取 GPU 類型。
    - 針對 A4 執行個體，請選取 NVIDIA B200
    - 針對 A3 Ultra 執行個體，請選取 NVIDIA H200 141GB
  2. 在「Number of GPUs」(GPU 數量) 清單中，選取 8。
在導覽選單中，按一下「OS 和儲存空間」。在隨即顯示的「OS and storage」窗格中，完成下列步驟：
1. 按一下「變更」。「Boot disk configuration」窗格隨即開啟。
2. 在「Public images」分頁中，選取建議的映像檔。如需建議的映像檔清單，請參閱「作業系統」。
3. 如要確認開機磁碟選項，請按一下「選取」。
如要建立多 NIC 執行個體，請完成下列步驟。否則，如要建立單一 NIC 執行個體，請略過這些步驟。
1. 在導覽選單中，按一下「Networking」。在隨即顯示的「Networking」窗格中，完成下列步驟：
  1. 在「Network interfaces」專區中，完成下列步驟：
  2. 刪除預設網路介面。如要刪除介面，請按一下「刪除」。
  3. 按一下「新增網路介面」。使用這個選項，新增您在上一節建立的 gVNIC 和 RDMA 網路。新增網路時，請注意下列事項：
    - 在「Network」(網路) 和「Subnetwork」(子網路) 清單中指定主機網路，並將「Network interface card」(網路介面卡) 清單設為 gVNIC。
    - 在「Network」(網路) 和「Sub-network」(子網路) 清單中指定 GPU 網路，然後將「Network interface card」(網路介面卡) 清單設為這些網路的 MRDMA。
在導覽選單中，按一下「進階」。在隨即顯示的「進階」窗格中，完成下列步驟：
1. 在「佈建模型」部分，在「VM 佈建模型」清單中選取「Spot」。
2. 選用：如要指定 Compute Engine 在搶先取得執行個體時要採取的動作 (停止 (預設) 或刪除)，請完成下列步驟：
  1. 展開「VM 佈建模式進階設定」部分。
  2. 在「On VM termination」清單中，選取所需選項。
如要建立並啟動執行個體，請按一下「建立」。

gcloud

如要建立 VM，請使用 gcloud compute instances create 指令。

gcloud compute instances create VM_NAME  \
    --machine-type=MACHINE_TYPE \
    --image-family=IMAGE_FAMILY \
    --image-project=IMAGE_PROJECT \
    --zone=ZONE \
    --boot-disk-type=hyperdisk-balanced \
    --boot-disk-size=DISK_SIZE \
    --scopes=cloud-platform \
    --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-0,subnet=GVNIC_NAME_PREFIX-sub-0 \
    --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-1,subnet=GVNIC_NAME_PREFIX-sub-1,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-0,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-1,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-2,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-3,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-4,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-5,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-6,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-7,no-address \
    --provisioning-model=SPOT \
    --instance-termination-action=TERMINATION_ACTION

更改下列內容：

VM_NAME：VM 名稱。
MACHINE_TYPE：VM 使用的機器類型。請指定 A4 或 A3 Ultra 機器類型。詳情請參閱GPU 機器類型。
IMAGE_FAMILY：您要使用的 OS 映像檔的映像檔系列。如需支援的作業系統清單，請參閱「作業系統詳細資訊」。
IMAGE_PROJECT：OS 映像檔的專案 ID。
ZONE：您要使用的機器類型可用的區域。如要瞭解地區相關資訊，請參閱「GPU 地區和區域」。
DISK_SIZE：開機磁碟的大小，單位為 GB。
GVNIC_NAME_PREFIX：建立使用 gVNIC 的標準虛擬私有雲網路和子網路時，指定的名稱前置字串。
RDMA_NAME_PREFIX：建立使用 RDMA NIC 的 VPC 網路和子網路時指定的名稱前置字串。
TERMINATION_ACTION：Compute Engine 預取執行個體時要採取的動作，可選 STOP (預設) 或 DELETE。

重要事項：請確認應用程式可以處理優先權。舉例來說，建議您在建立執行個體時指定關閉指令碼，以便處理先占問題。瞭解如何使用關閉指令碼處理先占。

REST

如要建立 VM，請對 instances.insert 方法發出 POST 要求。

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances
{
  "machineType":"projects/PROJECT_ID/zones/ZONE/machineTypes/MACHINE_TYPE",
  "name":"VM_NAME",
  "disks":[
    {
      "boot":true,
      "initializeParams":{
        "diskSizeGb":"DISK_SIZE",
        "diskType":"hyperdisk-balanced",
        "sourceImage":"projects/IMAGE_PROJECT/global/images/family/IMAGE_FAMILY"
      },
      "mode":"READ_WRITE",
      "type":"PERSISTENT"
    }
  ],
  "networkInterfaces": [
    {
      "accessConfigs": [
        {
          "name": "external-nat",
          "type": "ONE_TO_ONE_NAT"
        }
      ],
      "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-0",
      "nicType": "GVNIC",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-0"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-1",
      "nicType": "GVNIC",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-1"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-0"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-1"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-2"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-3"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-4"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-5"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-6"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-7"
    }
  ],
  "scheduling":
  {
    "provisioningModel": "SPOT",
    "instanceTerminationAction": "TERMINATION_ACTION"
  }
}

更改下列內容：

PROJECT_ID：要建立 VM 的專案 ID。
ZONE：您要使用的機器類型可用的區域。如要瞭解地區的相關資訊，請參閱「GPU 地區和區域」。
MACHINE_TYPE：VM 使用的機器類型。請指定 A4 或 A3 Ultra 機器類型。詳情請參閱GPU 機器類型。
VM_NAME：VM 名稱。
DISK_SIZE：開機磁碟的大小，單位為 GB。
IMAGE_PROJECT：OS 映像檔的專案 ID。
IMAGE_FAMILY：您要使用的 OS 映像檔的映像檔系列。如需支援的作業系統清單，請參閱「作業系統詳細資訊」。
NETWORK_PROJECT_ID：網路的專案 ID。
GVNIC_NAME_PREFIX：建立使用 gVNIC 的標準虛擬私有雲網路和子網路時，指定的名稱前置字串。
REGION：子網路的地區。
RDMA_NAME_PREFIX：建立使用 RDMA NIC 的 VPC 網路和子網路時指定的名稱前置字串。
TERMINATION_ACTION：Compute Engine 預取執行個體時要採取的動作，可選 STOP (預設) 或 DELETE。

重要事項：請確認應用程式可以處理優先權。舉例來說，建議您在建立執行個體時指定關閉指令碼，以便處理先占問題。瞭解如何使用關閉指令碼處理先占。

準備 Spot VM 並連接 GPU 以供使用

如要準備附加 GPU 的 Spot VM，請完成下列步驟：

如要讓執行個體使用已連結的 GPU，執行個體需要 GPU 驅動程式。除非您指定的映像檔已包含必要的 GPU 驅動程式，否則請按照安裝 GPU 驅動程式中的步驟操作。
如要準備 Spot VM 供使用，請完成下列步驟：
- 如要瞭解如何確保 Spot VM 能承受預取用，請參閱「管理 Spot VM 的預取用」。
- 選用：瞭解使用 Spot VM 的最佳做法。

後續步驟

如要監控 GPU 效能，請參閱「監控 GPU 效能」一文。
如要排解 GPU 執行個體的問題，請參閱「排解 GPU VM 問題」。
進一步瞭解 GPU 平台。

建立 A3 Ultra 或 A4 執行個體 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

事前準備

Console

gcloud

REST

必要的角色

所需權限

建立 A3 Ultra 或 A4 執行個體

使用 Spot VM 建立 A3 Ultra 或 A4 執行個體

建立虛擬私有雲網路

操作說明

指令碼

建立 Spot VM

主控台

gcloud

REST

準備 Spot VM 並連接 GPU 以供使用

後續步驟

建立 A3 Ultra 或 A4 執行個體