手動啟動主機維護事件

本頁說明如何在支援的 TPU VM 上手動啟動主機維護事件。這項功能適用於可能受到效能降低或停機時間影響的工作負載,因為您需要在特定時間開始維護期間。

手動啟動維護事件時,主機維護事件會立即開始。您無法指定維護活動的開始日期或時間。如果您未使用這項功能,維護事件就會在即將進行的維護通知中指定的時間發生。

如要瞭解如何手動啟動 GKE 中的 TPU 維護作業,請參閱「管理 GPU 和 TPU 的 GKE 節點中斷情形」。

限制

您只能針對下列配置的 TPU v6e VM 手動啟動主機維護事件:

  • 使用 2x4 拓撲設定 (如果使用 Cloud TPU API 中的加速器類型欄位,則為 v6e-8) 或更大的 TPU v6e VM
  • 使用 2x4 以上版本的 TPU v6e VM 的 GKE 多主機節點集區

如果是較大的切片,立即啟動主機維護作業可能會導致切片無法使用,最長可能長達數小時。通常,主機維護事件會導致切片盡快重新安排至其他符合資格的主機,但對於規模較大的主機維護事件要求,可能沒有足夠的容量可立即重新安排切片,導致等待時間拉長。

此外,在 Cloud TPU 區塊啟動維護作業時,所有基礎 TPU VM 都會開始維護作業。如果您使用 Instances API 直接對其中一個執行個體進行維護,Cloud TPU 區段中的所有執行個體都會進入維護狀態。請改用 queued-resources Cloud TPU API 指定應執行維護作業的節點。

手動啟動主機維護事件

您可以使用維護通知,決定何時要在 TPU 上手動啟動維護事件。

查看通知資訊

您可以使用 Cloud TPU API 或查詢 VM 上的中繼資料伺服器,查看即將進行的維護事件通知。詳情請參閱「查看維護通知」。

如果 TPU 顯示即將進行主機維護的通知,您可以提前啟動維護事件。如要提前開始維護事件,即將進行的主機維護通知必須將 canReschedule 設為 true,並將 maintenanceStatus 設為 PENDING

開始維護事件

如要啟動主機維護事件,您可以使用 Cloud TPU API 搭配 perform-maintenance 指令:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

作業完成後,windowEndTimewindowStartTime 欄位會變更為您啟動維護事件的時間,而 maintenanceStatus 欄位則會變更為 ONGOING。主機維護事件隨即開始。

使用 gcloud alpha compute tpus tpu-vm describe 指令查看維護事件的狀態:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

輸出內容會包含類似以下的區段:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

當 TPU VM 的狀態為 READY,且 gcloud alpha compute tpus tpu-vm describe 指令的輸出內容不再包含 upcomingMaintenance 中繼資料欄位時,維護作業就會完成。

針對多切片環境,您可以使用下列指令,手動在特定切片上啟動主機維護事件:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES 是排入佇列資源中,您要為其啟動主機維護作業事件的切片 (節點) 清單,以半形逗號分隔。舉例來說,如果排入佇列的資源包含名為 my-qr-0, my-qr-1my-qr-2 的節點,perform-maintenance 指令的有效輸入值會是 --node-names=my-qr-0,my-qr-1

後續步驟