本頁面由 Cloud Translation API 翻譯而成。

新增或移除 GPU

Linux Windows

Compute Engine 提供圖形處理器 (GPU)，您可以將這些 GPU 加入到您的虛擬機器 (VM) 執行個體。您可以使用這些 GPU 來加速處理 VM 上的特定工作負載，例如機器學習和資料處理。

在 Compute Engine 上執行 GPU 時，只能使用兩個機器系列：

加速器最佳化機器系列。所有加速器最佳化機型都已連接 GPU。
N1 一般用途機器系列。您可以使用大部分的 N1 機器類型，但 N1 共用核心機器類型除外。如果不是使用 N1 一般用途機器，可以改用 N1 一般用途機器，然後新增 GPU。

事前準備

如要查看其他必要步驟 (例如選取 OS 映像檔和檢查 GPU 配額)，請參閱總覽文件。
如果尚未設定驗證，請先完成設定。驗證可確認您的身分，以便存取 Google Cloud 服務和 API。如要從本機開發環境執行程式碼或範例，可以選取下列任一選項，向 Compute Engine 進行驗證：
Select the tab for how you plan to use the samples on this page:
Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
REST

如要在本機開發環境中使用本頁的 REST API 範例，請使用您提供給 gcloud CLI 的憑證。
詳情請參閱 Google Cloud 驗證說明文件中的「Authenticate for using REST」。

加速器最佳化 VM

每個加速器最佳化機型均連接特定型號的 NVIDIA GPU，以支援建議的工作負載類型。

AI 和機器學習工作負載	圖形和視覺化
加速器最佳化 A 系列機器類型專為高效能運算 (HPC)、人工智慧 (AI) 和機器學習 (ML) 工作負載設計。對於這些機器類型，系統會自動將 GPU 型號附加至執行個體。	加速器最佳化 G 系列機型專為工作負載設計，例如 NVIDIA Omniverse 模擬工作負載、含有大量圖案的應用程式、影片轉碼和虛擬桌面。這些機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)。對於這些機器類型，系統會自動將 GPU 型號附加至執行個體。
A4X (NVIDIA GB200 Superchips) (`nvidia-gb200`) A4 (NVIDIA B200) (`nvidia-b200`) A3 Ultra (NVIDIA H200) (`nvidia-h200-141gb`) A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) A3 High (NVIDIA H100) (`nvidia-h100-80gb`) A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) A2 Ultra (NVIDIA A100 80GB) (`nvidia-a100-80gb`) A2 Standard (NVIDIA A100) (`nvidia-a100-40gb`)	G4 (NVIDIA RTX PRO 6000) (`nvidia-rtx-pro-6000`) (`nvidia-rtx-pro-6000-vws`) G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)

您可以按照下列方式修改各個加速器最佳化例項：

對於 A4X、A4、A3 和 A2 Ultra 執行個體，您無法修改機器類型。如果您為執行個體使用上述任一機器類型，且需要變更機器類型，請建立新的執行個體。
如要修改 A2 Standard 執行個體的 GPU 數量，請從一個 A2 Standard 機器類型切換至另一個 A2 Standard 機器類型。
如果是 G4 執行個體，您可以從一個 G4 機型切換至另一個 G4 機型，藉此修改 GPU 數量。
如果是 G2 執行個體，您可以執行下列操作：
- 如要修改 GPU 數量，請從一個 G2 機器類型切換至另一個 G2 機器類型。
- 您可以從 G2 機器類型切換至其他機器系列的機器類型，例如一般用途或運算最佳化。請參閱「編輯 VM 的機器類型」。
您無法從任何加速器最佳化機器類型移除 GPU。

修改 GPU 數量

如要修改 A2 Standard、G4 或 G2 加速器最佳化執行個體的 GPU 數量，可以使用 Google Cloud 控制台或 REST。

主控台

如要修改執行個體的 GPU 數量，請停止執行個體並編輯執行個體設定。

確認執行個體上的所有重要應用程式皆已停止運作。
前往 Google Cloud 控制台的「VM instances」(VM 執行個體) 頁面，查看執行個體清單。

前往 VM 執行個體
按一下要修改 GPU 數量的執行個體名稱。「Details」(詳細資料) 頁面隨即開啟。
在「詳細資料」頁面完成下列步驟。
1. 如果執行個體正在執行，請按一下「停止」停止執行個體。如果沒有「停止」選項，請依序按一下「更多動作」> 「停止」。
2. 按一下「Edit」(編輯)。
3. 在「Machine configuration」(機器設定) 區段中，選取「GPUs」(GPU) 機器系列，然後執行下列操作：
  1. 在「Number of GPUs」(GPU 數量) 清單中，增加或減少 GPU 數量。
    
    注意： 每個加速器最佳化機型連接的 GPU 數量都不同。如果調整 GPU 數量，機器類型也會隨之變更。
4. 如要套用變更，請按一下「儲存」。
5. 如要重新啟動執行個體，請按一下「啟動/繼續」。

REST

如要修改執行個體的 GPU 數量，請停止執行個體並變更機器類型。每個加速器最佳化機型均連接特定數量的 GPU。變更機器類型時，系統會調整附加至執行個體的 GPU 數量。

確認執行個體上的所有重要應用程式皆已停止運作，然後建立 POST 指令來停止執行個體，這樣執行個體才能移動至具有 GPU 的主機系統。
```
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/stop
```

執行個體停止之後，請建立 POST 要求來修改機器類型。

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setMachineType

{
   machineType: "zones/ZONE/machineTypes/MACHINE_TYPE"
}

然後重新執行個體。

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/start

更改下列內容：

PROJECT_ID：您的專案 ID。
VM_NAME：要新增 GPU 的執行個體名稱。
ZONE：執行個體所在的區域。這個區域必須支援 GPU。
MACHINE_TYPE：要使用的機器類型。必須是下列其中一項：
- 如果執行個體使用 A2 Standard 機器，請選取其他 A2 Standard 機器類型。
- 如果執行個體使用 G4 機器，請選取其他 G4 機器類型。
- 如果執行個體使用 G2 機器類型，請選取其他 G2 機器類型。G2 機器類型也支援自訂記憶體。記憶體必須是 1024 MB 的倍數，且須在支援的記憶體範圍內。舉例來說，如果執行個體有 4 個 vCPU 和 19 GB 記憶體，機器類型名稱就會是 g2-custom-4-19456。

限制

A2 執行個體

您只能透過 A2 Standard 機型支援的用量選項要求容量。
使用 A2 Standard 機器類型的執行個體不適用續用折扣和彈性承諾使用折扣。
您只能在特定區域和可用區使用 A2 Standard 機器類型。
A2 Standard 機器類型僅適用於 Cascade Lake 平台。
如果執行個體使用 A2 Standard 機型，只能從一種 A2 Standard 機型切換至另一種 A2 Standard 機型。您無法變更為任何其他機器類型。詳情請參閱「修改已最佳化加速器的執行個體」。
您無法搭配使用 Windows 作業系統和 a2-megagpu-16g 機器類型。使用 Windows 作業系統時，請選擇其他 A2 Standard 機型。
在採用 A2 Standard 機型的 Windows 執行個體上，您無法快速格式化所連線的本機 SSD。如要格式化這些本機 SSD，請使用 diskpart 公用程式並指定 format fs=ntfs label=tmpfs，執行完整格式化。
A2 Standard 機型不支援單一租戶。

G2 執行個體

您只能使用 G2 機器類型的支援用量選項來要求容量。
使用 G2 機器類型的執行個體不適用續用折扣和彈性承諾使用折扣。
G2 機器類型僅適用於特定區域和可用區。
G2 機器類型僅適用於 Cascade Lake 平台。
使用 G2 機器類型的執行個體不支援標準永久磁碟 (pd-standard)。如要瞭解支援的磁碟類型，請參閱「G2 支援的磁碟類型」。
您無法在採用 G2 機器類型的執行個體上建立多重執行個體 GPU。
如要變更 G2 執行個體的機器類型，請參閱「修改加速器最佳化執行個體」。
如果執行個體使用 G2 機器類型，您就無法將深度學習 VM 映像檔做為開機磁碟。
Container-Optimized OS 目前的預設驅動程式不支援在 G2 機型上執行的 L4 GPU。此外，Container-Optimized OS 僅支援特定驅動程式集。如要在 G2 機器類型上使用 Container-Optimized OS，請參閱下列注意事項：
- 使用支援最低建議 NVIDIA 驅動程式版本 525.60.13 以上的 Container-Optimized OS 版本。詳情請參閱 Container-Optimized OS 版本資訊。
- 安裝驅動程式時，請指定適用於 L4 GPU 的最新版本。例如：sudo cos-extensions install gpu -- -version=525.60.13。
您必須使用 Google Cloud CLI 或 REST，才能在下列情境中建立 G2 執行個體：
- 您想指定自訂記憶體值。
- 您想自訂可見的 CPU 核心數量。

G4 執行個體

您只能透過 G4 機器類型支援的用量選項要求容量。
使用 G4 機器類型的執行個體不適用續用折扣和彈性承諾使用折扣。
您只能在特定區域和可用區使用 G4 機器類型。
您無法在採用 G4 機器類型的執行個體上使用永久磁碟 (區域或可用區)。
G4 機器類型僅適用於 AMD EPYC Turin 第 5 代平台。
您無法建立使用 G4 機型的機密 VM 執行個體。
您無法在單一用戶群節點上建立 G4 執行個體。
g4-standard-384 執行個體無法使用 Windows 作業系統。

N1 一般用途執行個體

本節說明如何新增、修改或移除 N1 一般用途機器的 GPU。

總而言之，如要為現有執行個體新增、修改或移除 GPU，請按照下列步驟操作：

確認執行個體的開機磁碟大小至少為 40 GB。
停止執行個體。
新增、修改或移除 GPU。

如果 N1 執行個體未連結任何 GPU，請完成下列步驟：
1. 準備好要修改的執行個體。
2. 修改執行個體的主機維護設定。由於具有 GPU 的執行個體已指派給特定的硬體裝置，因此無法即時遷移。詳情請參閱「GPU 限制」。
3. 變更機器類型。只有特定 N1 機器類型支援 GPU。
4. 在執行個體上安裝 GPU 驅動程式，如此一來系統才能使用 GPU 裝置。

準備執行個體

將 GPU 新增至執行個體時，網路介面的順序可能會變更。

Compute Engine 上的大多數公開映像檔都沒有永久網路介面名稱，且會根據新順序調整。

不過，如果您使用 SLES 或自訂映像檔，就必須更新系統設定，防止網路介面持續存在。如要防止網路介面持續存在，請在執行個體上執行下列指令：

 rm /etc/udev/rules.d/70-persistent-net.rules

為現有執行個體新增 GPU 或修改 GPU 類型

本節說明如何新增 GPU，或修改現有 N1 一般用途執行個體的 GPU 類型。這項程序支援下列 GPU 類型：

NVIDIA GPU：

NVIDIA T4：nvidia-tesla-t4
NVIDIA P4：nvidia-tesla-p4
NVIDIA P100：nvidia-tesla-p100
NVIDIA V100：nvidia-tesla-v100

NVIDIA RTX 虛擬工作站 (vWS) (舊稱 NVIDIA GRID)：

NVIDIA T4 虛擬工作站：nvidia-tesla-t4-vws
NVIDIA P4 虛擬工作站：nvidia-tesla-p4-vws
NVIDIA P100 虛擬工作站：nvidia-tesla-p100-vws

對於這些虛擬工作站，系統會自動將 NVIDIA RTX 虛擬工作站 (vWS) 授權新增至執行個體。

主控台

如要新增 GPU 或修改 GPU 類型，請完成下列步驟。

確認執行個體上的所有重要應用程式皆已停止運作。
前往 Google Cloud 控制台的「VM instances」(VM 執行個體) 頁面，查看執行個體清單。

前往 VM 執行個體
按一下要更新的執行個體名稱。「Details」(詳細資料) 頁面隨即開啟。
在「詳細資料」頁面完成下列步驟。
1. 如果執行個體正在執行，請按一下「停止」。如果沒有「停止」選項，請依序點選「更多動作」>「停止」。
2. 按一下「Edit」(編輯)。
3. 在「Machine configuration」(機器設定) 區段中，選取「GPUs」(GPU) 機器系列，然後執行下列操作：
  1. 在「GPU type」(GPU 類型) 清單中，選取或切換至 N1 VM 支援的任何 GPU 類型。
  2. 在「Number of GPUs」(GPU 數量) 清單中，選取 GPU 數量。
  3. 如果 GPU 型號支援適用於圖形工作負載的 NVIDIA RTX 虛擬工作站 (vWS)，且您打算在這個執行個體上執行含有大量圖案的工作負載，請選取「啟用虛擬工作站 (NVIDIA GRID)」。
4. 如果執行個體先前未附加 GPU，請完成下列步驟：
  1. 如果執行個體為共用核心機器類型，您必須變更機器類型。在「Machine type」(機器類型) 清單中，選取其中一個預設的 N1 機器類型。您也可以指定自訂機器類型設定。
  2. 在「管理」部分，完成下列步驟：
    1. 在「On host maintenance」(主機維護期間) 清單中，選取「Terminate VM instance」(終止 VM 執行個體)。附加 GPU 的執行個體無法即時遷移。請參閱「處理 GPU 主機事件」。
    2. 在「Automatic restart」(自動重新啟動) 清單中，選取「On」(開啟)。
5. 如要套用變更，請按一下「儲存」。
6. 如要重新啟動 VM，請按一下「Start/Resume」(啟動/繼續)。

REST

您可以透過 API 停止執行個體及變更執行個體設定，藉此為執行個體新增或修改 GPU。

確認執行個體上的所有重要應用程式皆已停止運作，然後建立 POST 指令來停止執行個體，這樣執行個體才能移動至具有 GPU 的主機系統。
```
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/stop
```
如果執行個體未附加任何 GPU，請完成下列步驟：
1. 確定您要為執行個體新增的 GPU 類型。您可以提交 GET 要求，列出專案在特定區域中可用的 GPU 類型。
```
GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/acceleratorTypes
```
2. 如果執行個體為共用核心機器類型，您必須變更機器類型，使其具有一或多個 vCPU。您無法為共用核心機器類型的執行個體新增加速器。
3. 建立 POST 指令來設定執行個體的排程選項。
```
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setScheduling

{
"onHostMaintenance": "TERMINATE",
"automaticRestart": true
}
```

建立 POST 要求，新增或修改附加至執行個體的 GPU。

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setMachineResources

    {
     "guestAccelerators": [
      {
        "acceleratorCount": ACCELERATOR_COUNT,
        "acceleratorType": "https://www.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/acceleratorTypes/ACCELERATOR_TYPE"
      }
     ]
    }

然後重新執行個體。
```
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/start
```
更改下列內容：
- PROJECT_ID：您的專案 ID。
- VM_NAME：要新增 GPU 的執行個體名稱。
- ZONE：執行個體所在的區域。
- ACCELERATOR_COUNT：要附加至執行個體的 GPU 數量。如需執行個體的機器類型適用的 GPU 限制清單，請參閱「Compute Engine 上的 GPU」。
- ACCELERATOR_TYPE：要附加或切換的 GPU 型號。如果您打算在這個執行個體上執行需要大量圖形的工作負載，請使用其中一個虛擬工作站模型。
  
  請選擇下列其中一個值：
  - NVIDIA GPU：
    - NVIDIA T4：nvidia-tesla-t4
    - NVIDIA P4：nvidia-tesla-p4
    - NVIDIA P100：nvidia-tesla-p100
    - NVIDIA V100：nvidia-tesla-v100
  - NVIDIA RTX 虛擬工作站 (vWS) (舊稱 NVIDIA GRID)：
    - NVIDIA T4 虛擬工作站：nvidia-tesla-t4-vws
    - NVIDIA P4 虛擬工作站：nvidia-tesla-p4-vws
    - NVIDIA P100 虛擬工作站：nvidia-tesla-p100-vws
    對於這些虛擬工作站，系統會自動將 NVIDIA RTX 虛擬工作站 (vWS) 授權新增至執行個體。

安裝驅動程式

如要安裝驅動程式，請選擇下列其中一個選項：

如果您打算執行需要大量圖形的工作負載 (例如遊戲和視覺化)，請安裝 NVIDIA RTX 虛擬工作站的驅動程式。
對於大多數工作負載，請安裝 GPU 驅動程式。

移除 GPU

本節說明如何從現有的 N1 一般用途執行個體中移除下列 GPU 類型。

NVIDIA GPU：

NVIDIA T4：nvidia-tesla-t4
NVIDIA P4：nvidia-tesla-p4
NVIDIA P100：nvidia-tesla-p100
NVIDIA V100：nvidia-tesla-v100

NVIDIA RTX 虛擬工作站 (vWS) (舊稱 NVIDIA GRID)：

NVIDIA T4 虛擬工作站：nvidia-tesla-t4-vws
NVIDIA P4 虛擬工作站：nvidia-tesla-p4-vws
NVIDIA P100 虛擬工作站：nvidia-tesla-p100-vws

對於這些虛擬工作站，系統會自動將 NVIDIA RTX 虛擬工作站 (vWS) 授權新增至執行個體。

您可以使用 Google Cloud console 從現有執行個體中移除 GPU。如要移除 GPU，請完成下列步驟：

確認執行個體上的所有重要應用程式皆已停止運作。
前往 Google Cloud 控制台的「VM instances」(VM 執行個體) 頁面，查看執行個體清單。

前往 VM 執行個體
按一下要移除 GPU 的執行個體名稱。「Details」(詳細資料) 頁面隨即開啟。
在「詳細資料」頁面完成下列步驟。
1. 如果執行個體正在執行，請按一下「停止」停止執行個體。如果沒有「停止」選項，請依序按一下「更多動作」> 「停止」。
2. 按一下工具列上的「編輯」圖示。
3. 在「機器設定」專區中，選取「一般用途」機器系列，然後執行下列操作：
  1. 如要查看附加的 GPU，請展開「Advanced configurations」(進階設定)。
  2. 在「GPUs」(GPU) 區段中，使用下列其中一個選項移除 GPU：
    - 如要移除部分 GPU，請在「Number of GPUs」(GPU 數量) 清單中選取新的數量。
    - 如要移除所有 GPU，請按一下「刪除 GPU」。
4. 選用：修改執行個體主機維護政策設定。具有 GPU 的執行個體必須將主機維護政策設為「終止 VM 執行個體」。但如果您移除了所有 GPU，則可選擇在主機維護期間即時遷移這個執行個體。詳情請參閱「設定 VM 主機維護政策」。
5. 如要套用變更，請按一下「儲存」。
6. 如要重新啟動執行個體，請按一下「啟動/繼續」。

後續步驟

進一步瞭解 GPU 平台。
為執行個體新增本機 SSD。如果您的應用程式需要高效能的儲存空間，本機 SSD 裝置和 GPU 是絕佳拍檔。
利用執行個體範本建立 GPU 執行個體群組。
如要監控 GPU 效能，請參閱「監控 GPU 效能」。
如要提升網路效能，請參閱「使用較高的網路頻寬」。
如要處理 GPU 主機維護作業，請參閱「處理 GPU 主機事件」。
嘗試按照使用 TensorRT5 和 NVIDIA T4 GPU 執行大規模 TensorFlow 推論工作負載教學課程操作。

新增或移除 GPU

事前準備

Console

REST

加速器最佳化 VM

修改 GPU 數量

主控台

REST

限制

A2 執行個體

G2 執行個體

G4 執行個體

N1 一般用途執行個體

準備執行個體

為現有執行個體新增 GPU 或修改 GPU 類型

主控台

REST

安裝驅動程式

移除 GPU

後續步驟