新增或移除 GPU


Compute Engine 提供圖形處理器 (GPU),您可以將這些 GPU 加入到虛擬機器 (VM) 執行個體。您可以使用這些 GPU 加速處理 VM 中的特定工作負載,例如機器學習和資料處理。

在 Compute Engine 上執行 GPU 時,您只能使用兩種機器系列:

  • 加速器最佳化機器系列。所有加速器最佳化機型都已連接 GPU。
  • N1 一般用途機器系列。您可以使用大部分的 N1 機器類型,但 N1 共用核心機器類型除外。如果您未使用 N1 一般用途機器,可以切換至 N1 一般用途機器,然後新增 GPU。

事前準備

  • 如要查看其他必要步驟 (例如選取 OS 映像檔和檢查 GPU 配額),請參閱總覽文件。
  • 如果尚未設定,請先設定驗證機制。驗證是指驗證身分,以便存取 Google Cloud 服務和 API 的程序。如要在本機開發環境中執行程式碼或範例,您可以選取下列任一選項,向 Compute Engine 進行驗證:

    Select the tab for how you plan to use the samples on this page:

    Console

    When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

    REST

    To use the REST API samples on this page in a local development environment, you use the credentials you provide to the gcloud CLI.

      After installing the Google Cloud CLI, initialize it by running the following command:

      gcloud init

      If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

    For more information, see Authenticate for using REST in the Google Cloud authentication documentation.

加速器最佳化 VM

每個加速器最佳化機型均連接特定型號的 NVIDIA GPU。

  • A4 加速器最佳化機型連接的是 NVIDIA B200 GPU。
  • A3 加速器最佳化機型連接的是 NVIDIA H100 80GB 或 NVIDIA H200 141GB GPU,這些選項可用於下列選項:
    • A3 Ultra:這類機型連接 H200 141GB GPU
    • A3 Mega:這類機型連接 H100 80GB GPU
    • A3 High:這類機型連接 H100 80GB GPU
    • A3 Edge:這類機型連接 H100 80GB GPU
  • A2 加速器最佳化機型連接的是 NVIDIA A100 GPU,這些選項如下:
    • A2 Ultra:這類機型連接 A100 80GB GPU
    • A2 Standard:這類機型連接 A100 40GB GPU
  • G2 加速器最佳化機型連接的是 NVIDIA L4 GPU。

您可以修改每個加速器最佳化 VM,如下所示:

  • 對於 A2 Ultra、A3 和 A4 VM,您無法修改機器類型。如果您在 VM 中使用任何這些機器類型,且需要變更機器類型,請建立新的 VM。

  • 針對 A2 Standard 虛擬機器,您可以從一種 A2 Standard 機器類型切換至另一種 A2 Standard 機器類型,藉此修改 GPU 數量。

  • 針對 G2 VM,您可以執行下列操作:

    • 您可以從一個 G2 機器類型切換至另一個 G2 機器類型,藉此修改 GPU 數量。
    • 您可以從 G2 機器類型切換至其他機器系列 (例如一般用途或運算最佳化) 的機器類型。請參閱「編輯 VM 的機器類型」。
  • 您無法從任何加速器最佳化機器類型中移除 GPU。如果不再需要 GPU,請完成下列步驟:

    • 針對 A4、A3 或 A2 VM,請建立新的 VM。
    • 如果是 G2 VM,請改用其他機器系列的機器類型。

修改 GPU 數量

您可以使用 Google Cloud 主控台或 REST 修改 A2 標準或 G2 加速器最佳化 VM 的 GPU 數量。

主控台

您可以停止 VM 並編輯 VM 設定,藉此修改 VM 的 GPU 數量。

  1. 確認虛擬機器人上的所有重要應用程式皆已停止運作。

  2. 前往 Google Cloud 控制台的「VM instances」(VM 執行個體) 頁面,查看 VM 清單。

    前往 VM 執行個體

  3. 按一下要修改 GPU 數量的 VM 名稱。「Details」(詳細資料) 頁面隨即開啟。

  4. 在「Details」頁面上完成下列步驟。

    1. 如果 VM 正在執行,請在工具列上按一下 「Stop」。然後等待 VM 停止。

    2. 按一下工具列上的 「編輯」

    3. 在「Machine configuration」(機器設定) 區段中,選取「GPUs」機器系列,然後執行下列操作:

      1. 在「GPU 數量」清單中,增加或減少 GPU 數量。

    4. 如要套用變更,請按一下「儲存」

    5. 如要重新啟動 VM,請按一下「Start/Resume」(開始/繼續)

REST

您可以停止 VM 並變更機器類型,藉此修改 VM 上的 GPU 數量。每個加速器最佳化機器類型都連接特定數量的 GPU。如果變更機器類型,系統會調整連結至 VM 的 GPU 數量。

  1. 確認 VM 上的所有重要應用程式皆已停止運作,然後建立 POST 指令來停止 VM,這樣 VM 才能移動至具有 GPU 的主機系統。

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/stop
    
  2. 在 VM 停止後,請建立 POST 要求來修改機器類型。

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setMachineType
    
    {
       machineType: "zones/ZONE/machineTypes/MACHINE_TYPE"
    }
    
  3. 啟動 VM。

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/start
    

更改下列內容:

  • PROJECT_ID:您的專案 ID。
  • VM_NAME:您要新增 GPU 的 VM 名稱。
  • ZONE:VM 所在區域。這個區域必須支援 GPU
  • MACHINE_TYPE:您要使用的機器類型。必須是下列其中一個值:

    • 如果 VM 使用 A2 標準機器,請選取其他 A2 機器類型
    • 如果 VM 使用 G2 機器類型,請選取其他 G2 機器類型。G2 機器類型也支援自訂記憶體。記憶體必須為 1024 MB 的倍數,且必須在支援的記憶體範圍內。舉例來說,如要建立具有 4 個 vCPU 和 19 GB 記憶體的 VM,請指定 --machine-type=g2-custom-4-19456

限制

A2 VM

  • 您只能使用 A2 標準機器類型的支援的佈建選項,才能要求容量。
  • 使用 A2 Standard 機器類型的 VM 不適用續用折扣彈性承諾使用折扣
  • 您只能在特定區域和可用區使用 A2 標準機器類型。
  • A2 Standard 機器類型僅適用於 Cascade Lake 平台
  • 如果 VM 使用 A2 Standard 機器類型,您只能從一個 A2 Standard 機器類型切換至另一個 A2 Standard 機器類型。您無法變更為任何其他機器類型。詳情請參閱「修改加速器最佳化 VM」。
  • 您無法使用 Windows 作業系統搭配 <codea2-megagpu-16g< code="" dir="ltr" translate="no"> A2 Standard 機器類型。使用 Windows 作業系統時,請選擇其他 A2 Standard 機器類型。</codea2-megagpu-16g<>
  • 您無法在使用 A2 Standard 機器類型的 Windows VM 上,快速格式化已連結的本機 SSD。如要格式化這些本機 SSD,您必須使用 diskpart 公用程式並指定 format fs=ntfs label=tmpfs,才能進行完整格式化。
  • A2 Standard 機器類型不支援單租戶

G2 VM

  • 您只能使用 G2 機器類型的支援的佈建選項來要求容量。
  • 您不會針對使用 G2 機器類型的 VM 獲得續用折扣彈性承諾使用折扣
  • 您只能在特定區域和可用區中使用 G2 機器類型。
  • G2 機器類型僅適用於 Cascade Lake 平台
  • 使用 G2 標準機器類型的 VM 不支援標準永久磁碟 (pd-standard)。如需支援的磁碟類型,請參閱「G2 支援的磁碟類型」。
  • 您無法在 G2 機器類型上建立多重執行個體 GPU
  • 如果您需要變更 G2 VM 的機器類型,請參閱「修改加速器最佳化 VM」。
  • 您無法將深度學習 VM 映像檔用作使用 G2 機器類型的 VM 的開機磁碟。
  • Container-Optimized OS 目前的預設驅動程式不支援在 G2 機器類型上執行的 L4 GPU。Container-Optimized OS 也只支援特定的驅動程式。如果您想在 G2 機器類型上使用 Container-Optimized OS,請參閱以下注意事項:
    • 請使用支援 NVIDIA 建議最低驅動程式版本 525.60.13 或更新版本的 Container-Optimized OS 版本。詳情請參閱 Container-Optimized OS 版本資訊
    • 安裝驅動程式時,請指定適用於 L4 GPU 的最新可用版本。例如:sudo cos-extensions install gpu -- -version=525.60.13
  • 在下列情況下,您必須使用 Google Cloud CLI 或 REST 建立 G2 VM
    • 您想指定自訂記憶體值。
    • 您想自訂可見的 CPU 核心數量。

N1 一般用途 VM

本節將說明如何在 N1 通用機器中新增、修改或移除 GPU。

總而言之,在現有 VM 中新增、修改或移除 GPU 的程序如下:

  1. 確認虛擬機的開機磁碟大小至少為 40 GB。
  2. 停止 VM。
  3. 新增、修改或移除 GPU。

    如果您的 VM 先前未連結 GPU,請完成下列步驟:

    1. 準備 VM 以便修改。
    2. 修改 VM 的主機維護設定。具有 GPU 的 VM 會指派給特定硬體裝置,因此無法即時遷移。詳情請參閱「GPU 限制」。
    3. 變更機器類型。只有特定機器類型支援 GPU。
    4. 在 VM 上安裝 GPU 驅動程式,如此一來系統才能使用該裝置。

準備 VM

將 GPU 新增至 VM 時,網路介面的順序可能會變更。

Compute Engine 上的大多數公開映像檔都沒有永久網路介面名稱,並且會調整為新順序。

不過,如果您使用的是 SLES 或自訂映像檔,則必須更新系統設定,以免網路介面持續存在。如要避免網路介面持續存在,請在 VM 上執行下列指令:

 rm /etc/udev/rules.d/70-persistent-net.rules 

在現有 VM 中新增 GPU 或修改 GPU 類型

本節將說明如何新增 GPU,或修改現有 N1 一般用途 VM 的 GPU 類型。這個程序支援下列 GPU 類型:

NVIDIA GPU:

  • NVIDIA T4:nvidia-tesla-t4
  • NVIDIA P4:nvidia-tesla-p4
  • NVIDIA P100:nvidia-tesla-p100
  • NVIDIA V100:nvidia-tesla-v100

NVIDIA RTX 虛擬工作站 (vWS) (舊稱 NVIDIA GRID):

  • NVIDIA T4 虛擬工作站:nvidia-tesla-t4-vws
  • NVIDIA P4 虛擬工作站:nvidia-tesla-p4-vws
  • NVIDIA P100 虛擬工作站:nvidia-tesla-p100-vws

    對於這些虛擬工作站,系統會自動將 NVIDIA RTX 虛擬工作站 (vWS) 授權新增至 VM。

主控台

如要新增 GPU 或修改 GPU 類型,請完成下列步驟。

  1. 確認虛擬機器人上的所有重要應用程式皆已停止運作。

  2. 前往 Google Cloud 控制台的「VM instances」(VM 執行個體) 頁面,查看 VM 清單。

    前往 VM 執行個體

  3. 按一下要更新的 VM 名稱。「Details」(詳細資料) 頁面隨即開啟。

  4. 在「Details」頁面上完成下列步驟。

    1. 如果 VM 正在執行,請在工具列上按一下 「Stop」。然後等待 VM 停止。

    2. 按一下工具列上的 「編輯」

    3. 在「Machine configuration」(機器設定) 區段中,選取「GPUs」機器系列,然後執行下列操作:

      1. 在「GPU type」清單中,選取或切換至 N1 虛擬機器支援的任何 GPU 類型。

      2. 在「Number of GPUs」(GPU 數量) 清單中,選取 GPU 數量。

      3. 如果 GPU 型號支援適用於圖形工作負載的 NVIDIA RTX 虛擬工作站 (vWS),且您打算在這個 VM 上執行圖形密集型工作負載,請選取「Enable Virtual Workstation (NVIDIA GRID)」

    4. 如果 VM 先前未連接 GPU,請完成下列步驟:

      1. 如果 VM 為共用核心機器類型,您必須變更機器類型。在「Machine type」(機器類型) 清單中,選取其中一個預設 N1 機器類型。您也可以指定自訂機器類型設定。

      2. 在「管理」部分中,完成下列操作:

        1. 在「On host maintenance」清單中,選取「Terminate VM instance」。已連接 GPU 的 VM 無法進行即時遷移。請參閱「處理 GPU 主機事件」。

        2. 在「自動重新啟動」清單中,選取「開啟」

    5. 如要套用變更,請按一下「儲存」

    6. 如要重新啟動 VM,請按一下「Start/Resume」(開始/繼續)

REST

您可以停止 VM 並透過 API 變更 VM 設定,藉此在 VM 上新增或修改 GPU。

  1. 確認 VM 上的所有重要應用程式皆已停止運作,然後建立 POST 指令來停止 VM,這樣 VM 才能移動至具有 GPU 的主機系統。

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/stop
    
  2. 如果您的 VM 先前未連結 GPU,請完成下列步驟:

    1. 找出要新增至 VM 的 GPU 類型。您可以提交 GET 要求,列出特定區域中專案可用的 GPU 類型。

      GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/acceleratorTypes
      
    2. 如果 VM 為共用核心機器類型,您必須變更機器類型,使其具有一或多個 vCPU。您無法為共用核心機器類型的 VM 新增加速器。

    3. 建立 POST 指令,設定 VM 的排程選項。

      POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setScheduling
      
      {
      "onHostMaintenance": "TERMINATE",
      "automaticRestart": true
      }
      
  3. 建立 POST 要求,新增或修改連接至 VM 的 GPU。

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setMachineResources
    
        {
         "guestAccelerators": [
          {
            "acceleratorCount": ACCELERATOR_COUNT,
            "acceleratorType": "https://www.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/acceleratorTypes/ACCELERATOR_TYPE"
          }
         ]
        }
    
  4. 啟動 VM。

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/start
    

    更改下列內容:

    • PROJECT_ID:您的專案 ID。
    • VM_NAME:您要新增 GPU 的 VM 名稱。
    • ZONE:VM 所在區域。
    • ACCELERATOR_COUNT:您要連結至 VM 的 GPU 數量。如需 VM 機器類型適用的 GPU 限制清單,請參閱 Compute Engine 上的 GPU
    • ACCELERATOR_TYPE:您要附加或切換的 GPU 型號。如果您打算在這個 VM 上執行需要處理大量圖形的工作負載,請使用其中一個虛擬工作站模型

      請選擇下列其中一個值:

      • NVIDIA GPU:

        • NVIDIA T4:nvidia-tesla-t4
        • NVIDIA P4:nvidia-tesla-p4
        • NVIDIA P100:nvidia-tesla-p100
        • NVIDIA V100:nvidia-tesla-v100
      • NVIDIA RTX 虛擬工作站 (vWS) (舊稱 NVIDIA GRID):

        • NVIDIA T4 虛擬工作站:nvidia-tesla-t4-vws
        • NVIDIA P4 虛擬工作站:nvidia-tesla-p4-vws
        • NVIDIA P100 虛擬工作站:nvidia-tesla-p100-vws

        對於這些虛擬工作站,系統會自動將 NVIDIA RTX 虛擬工作站 (vWS) 授權新增至 VM。

安裝驅動程式

如要安裝驅動程式,請選擇下列其中一個選項:

移除 GPU

本節說明如何從現有的 N1 通用 VM 中移除下列 GPU 類型。

NVIDIA GPU:

  • NVIDIA T4:nvidia-tesla-t4
  • NVIDIA P4:nvidia-tesla-p4
  • NVIDIA P100:nvidia-tesla-p100
  • NVIDIA V100:nvidia-tesla-v100

NVIDIA RTX 虛擬工作站 (vWS) (舊稱 NVIDIA GRID):

  • NVIDIA T4 虛擬工作站:nvidia-tesla-t4-vws
  • NVIDIA P4 虛擬工作站:nvidia-tesla-p4-vws
  • NVIDIA P100 虛擬工作站:nvidia-tesla-p100-vws

    對於這些虛擬工作站,系統會自動將 NVIDIA RTX 虛擬工作站 (vWS) 授權新增至 VM。

您可以使用 Google Cloud 控制台,從現有 VM 中移除 GPU。如要移除 GPU,請完成下列步驟:

  1. 確認虛擬機器人上的所有重要應用程式皆已停止運作。

  2. 前往 Google Cloud 控制台的「VM instances」(VM 執行個體) 頁面,查看 VM 清單。

    前往 VM 執行個體

  3. 按一下要移除 GPU 的 VM 名稱。「Details」(詳細資料) 頁面隨即開啟。

  4. 在「Details」頁面上完成下列步驟。

    1. 如果 VM 正在執行,請在工具列上按一下 「Stop」。然後等待 VM 停止。

    2. 按一下工具列上的 「編輯」

    3. 在「Machine configuration」專區中,選取「General purpose」機器系列,然後執行下列操作:

      1. 如要查看已連結的 GPU,請展開「進階設定」

      2. 在「GPUs」專區中,使用下列其中一個選項移除 GPU:

        • 如要移除部分 GPU,請在「Number of GPUs」清單中選取新的數量。

        • 如要移除所有 GPU,請按一下 「刪除 GPU」

    4. 選用:修改 VM 主機維護政策設定。具有 GPU 的 VM 必須將主機維護政策設為「Terminate VM instance」(終止 VM 執行個體)。但如果您已移除所有 GPU,則可以在主機維護期間即時遷移這個 VM。詳情請參閱「設定 VM 主機維護政策」。

    5. 如要套用變更,請按一下「儲存」

    6. 如要重新啟動 VM,請按一下「Start/Resume」(開始/繼續)

後續步驟