本頁面由 Cloud Translation API 翻譯而成。

建立含有 GPU VM 的 MIG

本文件說明如何使用已連結 GPU 的虛擬機器 (VM) 執行個體，建立代管執行個體群組 (MIG)。說明如何使用大小調整要求和彈性啟動佈建模式，一次在區域性代管執行個體群組 (MIG) 中新增所有 GPU VM。如要建立可使用叢集總管提供的功能和服務的 MIG 調整大小要求，請參閱 AI Hypercomputer 說明文件中的「建立 MIG 和調整大小要求」。

使用彈性啟動佈建模式的 MIG 大小調整要求，可提高 GPU VM 的可取得性。在要求中，請指定 GPU VM 數量，以及要執行這些 VM 的時間長度。動態工作負載排程器 (DWS)是基礎排程器機制，會根據要求的時間長度和資源可用性，排定在 Compute Engine 中建立的調整大小要求。資源可用時，MIG 會自動建立 VM。

如果在這些 VM 上執行的工作比要求的時間提早結束，您可以刪除這些 VM。否則，MIG 會在 VM 執行時間結束時自動刪除 VM。

您也可以參閱其他建立 MIG 的基本情境。

事前準備

如要確保您有足夠的 GPU 配額可用於要求的資源，請查看 GPU 配額。
如要瞭解配額消耗量，請參閱「GPU VM 和可先占分配配額」。
如果尚未設定，請先設定驗證機制。驗證是指驗證身分，以便存取 Google Cloud 服務和 API 的程序。如要從本機開發環境執行程式碼或範例，請選取下列任一選項，以便對 Compute Engine 進行驗證：

Select the tab for how you plan to use the samples on this page:
Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud
1. After installing the Google Cloud CLI, initialize it by running the following command:
  gcloud init
  If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
  
  Note: If you installed the gcloud CLI previously, make sure you have the latest version by running gcloud components update.
2. Set a default region and zone.

限制

請詳閱建立 MIG 大小調整要求的限制。

建立 MIG 並一次新增多個 GPU VM

如要建立 MIG 並在群組中一次新增多個 GPU VM，請按照下列步驟操作：

建立執行個體範本，以便建立 MIG。MIG 會根據執行個體範本建立群組中的每個 VM。在範本中指定 GPU VM 的設定，以及使用調整大小要求所需的其他設定。

如要進一步瞭解執行個體範本，請參閱「關於執行個體範本」。
建立 MIG 和大小調整要求，一次新增多個 GPU VM。

建立執行個體範本

按照本節所述建立執行個體範本，然後使用範本建立 MIG。

這項工作需要的權限

如要執行這項工作，您必須具備以下權限：

呼叫 instanceTemplates.insert 方法時所需的所有權限。

主控台

前往「Instance templates」(執行個體範本) 頁面。

前往「Instance templates」(執行個體範本) 頁面
按一下「建立執行個體範本」。「Create an instance template」(建立執行個體範本) 頁面隨即開啟。
在「Name」欄位中，輸入執行個體範本的名稱。
在「機器設定」專區中，執行下列操作：
1. 按一下「GPU」分頁標籤。
2. 在「GPU type」清單中選取 GPU 類型。
3. 在「Number of GPUs」(GPU 數量) 清單中，選取 GPU 數量。
4. 在「Machine type」(機器類型) 部分中，選取機器類型。
在「Provisioning model」(佈建模型) 部分執行下列操作：
1. 在「VM 佈建模型」清單中，選取「彈性啟動」。
  
  注意： 選取彈性啟動佈建模式時，您無法使用預留項目。 Google Cloud 控制台會自動在「進階選項」>「管理」>「保留」部分，選取「不使用保留」選項。
2. 如要為透過執行個體範本建立的 VM 設定執行時間長度，請在「輸入小時數」欄位中輸入小時數。這個值必須介於一小時 (1) 和七天 (168) 之間。
選用步驟：如要變更預設值開機磁碟類型或映像檔，請在「Boot disk」(開機磁碟) 部分中按一下「Change」(變更)。然後按照提示變更啟動磁碟。
按一下 [建立]。

gcloud

使用 beta instance-templates create 指令建立執行個體範本：

gcloud beta compute instance-templates create INSTANCE_TEMPLATE_NAME \
    --image-project=IMAGE_PROJECT \
    --image-family=IMAGE_FAMILY \
    --instance-termination-action=DELETE \
    --instance-template-region=REGION \
    --machine-type=MACHINE_TYPE \
    --maintenance-policy=TERMINATE \
    --max-run-duration=RUN_DURATION \
    --provisioning-model=FLEX_START \
    --reservation-affinity=none

更改下列內容：

INSTANCE_TEMPLATE_NAME：執行個體範本的名稱。
IMAGE_PROJECT：包含圖片的圖片專案，例如 debian-cloud。如要進一步瞭解支援的圖像專案，請參閱「公開圖像」。
IMAGE_FAMILY：圖片群組。這會指定最新的非淘汰作業系統映像檔。舉例來說，如果您指定 debian-12，系統會使用 Debian 12 映像檔系列中的最新版本。如要進一步瞭解如何使用映像檔系列，請參閱「映像檔系列最佳做法」。

注意： 如果您想使用特定版本的 OS 映像檔 (例如 debian-12-bookworm-v20240701)，請將 --image-family 旗標替換為 --image 旗標。
REGION：要建立執行個體範本的區域。
MACHINE_TYPE：支援 GPU 的機器類型。如果您指定 N1 機器類型，請加入 --accelerator 標記，指定要附加至 VM 的 GPU 數量和類型。
RUN_DURATION：您希望要求的 VM 執行的時間長度。您必須將值格式化為天數、小時、分鐘或秒數，後面分別加上 d、h、m 或 s。例如，如果要指定 30 分鐘，請指定 30m；如果要指定一天、兩小時、三分鐘和四秒，請指定 1d2h3m4s。值必須介於 10 分鐘至 7 天之間。

REST

對 beta.instanceTemplates.insert 方法發出 POST 要求，建立執行個體範本：

POST https://compute.googleapis.com/compute/beta/projects/PROJECT_ID/regions/REGION/instanceTemplates

{
  "name": "INSTANCE_TEMPLATE_NAME",
  "properties": {
    "disks": [
      {
        "boot": true,
        "initializeParams": {
          "sourceImage": "projects/IMAGE_PROJECT/global/images/IMAGE
        }
      }
    ],
    "machineType": "MACHINE_TYPE",
    "networkInterfaces": [
      {
        "network": "global/networks/default"
      }
    ],
    "reservationAffinity": {
      "consumeReservationType": "NO_RESERVATION"
    },
    "scheduling": {
      "instanceTerminationAction": "DELETE",
      "maxRunDuration": {
        "seconds": RUN_DURATION
      },
      "onHostMaintenance": "TERMINATE",
      "provisioningModel": "FLEX_START"
    }
  }
}

更改下列內容：

PROJECT_ID：您要在其中建立執行個體範本的專案 ID。
REGION：要建立執行個體範本的區域。
INSTANCE_TEMPLATE_NAME：執行個體範本的名稱。
IMAGE_PROJECT：包含圖片的圖片專案，例如 debian-cloud。如要進一步瞭解支援的圖像專案，請參閱「公開圖像」。
IMAGE：指定下列其中一個值：
- 特定 OS 映像檔版本，例如 debian-12-bookworm-v20240617。
- 映像檔系列，格式必須為 family/IMAGE_FAMILY。這會指定最新的未淘汰作業系統映像檔。舉例來說，如果您指定 family/debian-12，系統會使用 Debian 12 映像檔系列中的最新版本。如要進一步瞭解如何使用映像檔系列，請參閱「映像檔系列最佳做法」。
MACHINE_TYPE：支援 GPU 的機器類型。如果您指定 N1 機器類型，請加入 guestAccelerators 欄位，指定要附加至 VM 的 GPU 數量和類型。
RUN_DURATION：您希望要求的 VM 在 MIG 自動刪除前執行的時間長度 (以秒為單位)。值必須介於 600 (600 秒，即 10 分鐘) 和 604800 (604,800 秒，即 7 天) 之間。

建立執行個體範本後，您可以查看範本，查看 ID 並檢查執行個體屬性。

建立 MIG 並一次新增多個 GPU VM

請按照本節說明建立 MIG。如要在 MIG 中建立大小調整要求，請勿設定自動調度資源，並且必須關閉修復。

這項工作需要的權限

如要執行這項工作，您必須具備以下權限：

呼叫 instanceGroupManagers.insert 方法時所需的所有權限。

主控台

前往「Instance groups」(執行個體群組) 頁面。

前往「Instance groups」(執行個體群組)
按一下「建立執行個體群組」。「Create instance group」(建立執行個體群組) 頁面隨即開啟。
在「Name」欄位中，輸入 MIG 的名稱。
選取執行個體範本前，您必須刪除自動調度資源設定並關閉修復功能，步驟如下：
1. 如要刪除自動調度資源設定，請按照下列步驟操作：
  1. 在「Autoscaling」部分，按一下「Autoscaling mode」清單，然後點選「Delete autoscaling configuration」。
  2. 在確認對話方塊中按一下「刪除」。
2. 如要關閉修復功能，請在「VM 執行個體生命週期」部分中，按一下「發生錯誤時的預設動作」清單，然後選取「不執行任何動作」。
返回「Instance template」欄位。在「Instance template」(執行個體範本) 清單中，選取您在前一個部分建立的執行個體範本。
執行下列其中一個步驟：
- 如要使用 MIG 建立調整大小要求，請執行下列操作：
  1. 在「Number of instances」欄位中，輸入要一次建立的 VM 數量。
  2. 勾選「透過大小調整要求一次建立多個 VM」核取方塊。
  3. 選用步驟：如要為 VM 指定與執行個體範本中設定的不同執行時間長度，請在「Requested run duration」欄位和「Unit」清單中指定時間長度。時長必須介於 1 小時至 7 天之間。
- 如要在建立 MIG 後建立大小調整要求，請在「執行個體數量」欄位中輸入 0。
在「Location」(位置) 部分中，指定要建立區域性或地區性 MIG，如下所示：
1. 如要建立可用區 MIG，請選取「單一可用區」。或者，如要建立區域性 MIG，請選取「多個可用區」。
2. 選取 MIG 的「Region」(區域)和「Zone」(可用區)。
3. 如要建立區域性 MIG，請執行下列步驟：
  1. 在「Target distribution shape」(目標分配型態) 欄位中，選取「Any single zone」(任何單一可用區)。
  2. 在隨即顯示的對話方塊中，按一下「Disable instance redistribution」(停用執行個體重新分配)。
按一下 [建立]。

gcloud

使用 instance-groups managed create 指令建立可用區 MIG：

gcloud compute instance-groups managed create INSTANCE_GROUP_NAME \
   --template=INSTANCE_TEMPLATE_URL \
   --size=0 \
   --zone=ZONE \
   --default-action-on-vm-failure=do_nothing

在 MIG 中，使用 instance-groups managed resize-requests create 指令建立調整大小要求。指定所需的 GPU VM 數量，以及要執行這些 VM 的時間長度。
```
gcloud compute instance-groups managed resize-requests create INSTANCE_GROUP_NAME \
   --resize-request=RESIZE_REQUEST_NAME \
   --resize-by=COUNT \
   --zone=ZONE
```

更改下列內容：

INSTANCE_GROUP_NAME：MIG 名稱。
INSTANCE_TEMPLATE_URL：您要在 MIG 中用來建立 VM 的執行個體範本網址。網址可以包含執行個體範本的ID 或名稱。請指定下列其中一個值：
- 區域執行個體範本：projects/PROJECT_ID/regions/REGION/instanceTemplates/INSTANCE_TEMPLATE_ID
- 全域執行個體範本：INSTANCE_TEMPLATE_ID
ZONE：可用於 Compute Engine 的其中一個區域。
RESIZE_REQUEST_NAME：重新調整大小要求的名稱。
COUNT：在群組中一次新增的 VM 數量。

REST

對 instanceGroupManagers.insert 方法發出 POST 要求，建立區域 MIG。

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instanceGroupManagers

{
 "versions": [
   {
     "instanceTemplate": "INSTANCE_TEMPLATE_URL"
   }
 ],
 "name": "INSTANCE_GROUP_NAME",
 "targetSize": 0,
 "instanceLifecyclePolicy": {
   "defaultActionOnFailure": "DO_NOTHING"
 }
}

在 MIG 中，對 instanceGroupManagerResizeRequests.insert 方法發出 POST 要求，即可建立大小調整要求。在要求主體中，指定要一次建立的 GPU VM 數量，以及要執行這些 VM 的時間長度。
```
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instanceGroupManagers/INSTANCE_GROUP_NAME/resizeRequests

{
 "name": "RESIZE_REQUEST_NAME",
 "resizeBy": COUNT
}
```

更改下列內容：

PROJECT_ID：您要在其中建立 MIG 的專案 ID。
INSTANCE_GROUP_NAME：MIG 名稱。
INSTANCE_TEMPLATE_URL：您要在 MIG 中用來建立 VM 的執行個體範本網址。網址可以包含執行個體範本的ID 或名稱。請指定下列其中一個值：
- 區域執行個體範本：projects/PROJECT_ID/regions/REGION/instanceTemplates/INSTANCE_TEMPLATE_ID
- 全域執行個體範本：INSTANCE_TEMPLATE_ID
ZONE：可用於 Compute Engine 的其中一個區域。
RESIZE_REQUEST_NAME：重新調整大小要求的名稱。
COUNT：在群組中一次新增的 VM 數量。

您建立的大小調整要求會維持在 ACCEPTED 狀態，直到 MIG 建立所有要求的 GPU VM 為止。在群組中建立所有 GPU VM 後，要求狀態會變更為 SUCCEEDED。

後續步驟

瞭解如何查看 VM 和 GPU 的實際用量和預估用量。

建立含有 GPU VM 的 MIG 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

事前準備

Console

gcloud

REST

限制

建立 MIG 並一次新增多個 GPU VM

建立執行個體範本

這項工作需要的權限

主控台

gcloud

REST

建立 MIG 並一次新增多個 GPU VM

這項工作需要的權限

主控台

gcloud

REST

後續步驟

建立含有 GPU VM 的 MIG