本頁面由 Cloud Translation API 翻譯而成。

手動啟動主機維護事件

本頁說明如何在支援的 TPU VM 上手動啟動主機維護事件。如果工作負載可能受到效能降低或停機影響，且您需要維護期間在特定時間開始，這項功能就非常實用。

手動啟動維護事件時，主機維護事件會立即啟動。您無法指定維護活動的開始日期或時間。如未使用這項功能，維護事件會在即將進行的維護通知中顯示的時間發生。

如要瞭解如何手動啟動 GKE 中 TPU 的維護作業，請參閱「管理 GPU 和 TPU 的 GKE 節點中斷」。

限制

您只能為具有下列設定的 TPU VM 手動啟動主機維護事件：

任何 TPU v4 或 v5p VM
具有 2x4 拓撲設定的 TPU v5e 或 v6e VM (例如，v6e-8 如果使用 Cloud TPU API 中的加速器類型欄位) 或更大
GKE v5e 或 v6e 多主機節點集區，其中包含 2x4 以上的 TPU VM

如果立即對較大的分片啟動主機維護作業，分片可能無法使用，時間最長可達數小時。通常，主機維護事件會導致切片盡快重新排定至另一組符合資格的主機，但如果是較大的主機維護事件要求，可能沒有足夠的容量立即重新排定切片，導致等待時間較長。

此外，對 Cloud TPU 區塊啟動維護作業時，系統會對所有基礎 TPU VM 啟動維護作業。如果您使用 Instances API 直接對其中一個執行個體執行維護作業，Cloud TPU 節點中的所有執行個體都會進入維護狀態。請改用 queued-resources Cloud TPU API，指定要維護的節點。

手動啟動主機維護事件

您可以透過維護通知，判斷何時能在 TPU 上手動啟動維護事件。

查看通知資訊

您可以使用 Cloud TPU API 或查詢 VM 上的中繼資料伺服器，找出即將執行的維護事件通知。詳情請參閱「查看維護通知」。

如果 TPU 上顯示即將進行主機維護的通知，您可以提前啟動維護事件。如要提前啟動維護事件，即將進行的主機維護通知必須將 canReschedule 設為 true，並將 maintenanceStatus 設為 PENDING。

啟動維護事件

如要啟動主機維護事件，可以使用 Cloud TPU API 和 perform-maintenance 指令：

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

作業完成後，windowEndTime 和 windowStartTime 欄位會變更為您啟動維護事件的時間，而 maintenanceStatus 欄位會變更為 ONGOING。主機維護事件隨即開始。

使用 gcloud alpha compute tpus tpu-vm describe 指令查看維護事件的狀態：

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

輸出內容應包含與以下類似的區段：

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

當 TPU VM 的狀態為 READY，且 gcloud alpha compute tpus tpu-vm describe 指令的輸出內容不再包含 upcomingMaintenance 中繼資料欄位時，維護作業即完成。

在 Multislice 環境中，您可以使用下列指令，在特定切片上手動啟動主機維護事件：

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES 是佇列資源中以半形逗號分隔的節點 (節點) 清單，您要為這些節點啟動主機維護事件。舉例來說，如果佇列資源有名為 my-qr-0, my-qr-1 和 my-qr-2 的節點，則 perform-maintenance 指令的有效輸入內容為 --node-names=my-qr-0,my-qr-1。

手動啟動主機維護事件

限制

手動啟動主機維護事件

查看通知資訊

啟動維護事件

後續步驟