手動啟動主機維護事件
本頁說明如何在支援的 TPU VM 上手動啟動主機維護事件。這項功能適用於可能受到效能降低或停機時間影響的工作負載,因為您需要在特定時間開始維護期間。
手動啟動維護事件時,主機維護事件會立即開始。您無法指定維護活動的開始日期或時間。如果您未使用這項功能,維護事件就會在即將進行的維護通知中指定的時間發生。
如要瞭解如何手動啟動 GKE 中的 TPU 維護作業,請參閱「管理 GPU 和 TPU 的 GKE 節點中斷情形」。
限制
您只能針對下列配置的 TPU v6e VM 手動啟動主機維護事件:
- 使用
2x4
拓撲設定 (如果使用 Cloud TPU API 中的加速器類型欄位,則為v6e-8
) 或更大的 TPU v6e VM - 使用
2x4
以上版本的 TPU v6e VM 的 GKE 多主機節點集區
如果是較大的切片,立即啟動主機維護作業可能會導致切片無法使用,最長可能長達數小時。通常,主機維護事件會導致切片盡快重新安排至其他符合資格的主機,但對於規模較大的主機維護事件要求,可能沒有足夠的容量可立即重新安排切片,導致等待時間拉長。
此外,在 Cloud TPU 區塊啟動維護作業時,所有基礎 TPU VM 都會開始維護作業。如果您使用 Instances API 直接對其中一個執行個體進行維護,Cloud TPU 區段中的所有執行個體都會進入維護狀態。請改用 queued-resources
Cloud TPU API 指定應執行維護作業的節點。
手動啟動主機維護事件
您可以使用維護通知,決定何時要在 TPU 上手動啟動維護事件。
查看通知資訊
您可以使用 Cloud TPU API 或查詢 VM 上的中繼資料伺服器,查看即將進行的維護事件通知。詳情請參閱「查看維護通知」。
如果 TPU 顯示即將進行主機維護的通知,您可以提前啟動維護事件。如要提前開始維護事件,即將進行的主機維護通知必須將 canReschedule
設為 true
,並將 maintenanceStatus
設為 PENDING
。
開始維護事件
如要啟動主機維護事件,您可以使用 Cloud TPU API 搭配 perform-maintenance
指令:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
作業完成後,windowEndTime
和 windowStartTime
欄位會變更為您啟動維護事件的時間,而 maintenanceStatus
欄位則會變更為 ONGOING
。主機維護事件隨即開始。
使用 gcloud alpha compute tpus tpu-vm describe
指令查看維護事件的狀態:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
輸出內容會包含類似以下的區段:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
當 TPU VM 的狀態為 READY
,且 gcloud alpha compute tpus tpu-vm describe
指令的輸出內容不再包含 upcomingMaintenance
中繼資料欄位時,維護作業就會完成。
針對多切片環境,您可以使用下列指令,手動在特定切片上啟動主機維護事件:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
是排入佇列資源中,您要為其啟動主機維護作業事件的切片 (節點) 清單,以半形逗號分隔。舉例來說,如果排入佇列的資源包含名為 my-qr-0, my-qr-1
和 my-qr-2
的節點,perform-maintenance
指令的有效輸入值會是 --node-names=my-qr-0,my-qr-1
。