本頁面由 Cloud Translation API 翻譯而成。

處理 GPU 主機維護事件

當 Compute Engine 對已附加圖形處理器 (GPU) 的虛擬機器 (VM) 執行維護作業時，必須停止 VM。這是因為已附加 GPU 的 VM 無法進行即時遷移。

您必須將這些 VM 設為在主機維護事件期間停止。您可以將已停止的 VM 設為在維護事件完成後自動重新啟動。

主機維護作業通常每兩週執行一次，但有時可能會更頻繁地執行。

本文將說明如何在維護事件期間，盡量減少對工作負載的干擾。

在維護事件前收到通知

您可以監控虛擬機器 (VM) 執行個體的維護時間表，並為工作負載做好準備，以在重新啟動系統時進行轉換。

如要接收主機事件的進階通知，請監控 /computeMetadata/v1/instance/maintenance-event 中繼資料值。如果傳送至中繼資料伺服器的要求傳回 NONE，表示 VM 未排定停止。舉例來說，請在 VM 內執行下列指令：

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

如果中繼資料伺服器傳回 TERMINATE_ON_HOST_MAINTENANCE，則表示已排定 VM 的停止時間。Compute Engine 會提前 1 小時傳送停止通知給 GPU VM，而一般 VM 只會在停止前 60 秒收到通知。請設定應用程式，以便在維護作業過程中進行轉換。舉例來說，您可以採用下列任一方式：

將應用程式設為暫時將執行中的工作轉移到 Cloud Storage bucket，再於虛擬機器重新啟動之後擷取相關資料。
將資料寫入次要永久磁碟。VM 自動重新啟動時，重新連結永久磁碟就能讓應用程式恢復運作。

後續步驟

進一步瞭解 GPU 平台。
如要進一步瞭解如何管理及調度 VM 群組資源，請參閱設定群組的目標大小。
如要監控 GPU 效能，請參閱「監控 GPU 效能」。
如要提升網路效能，請參閱「使用較高的網路頻寬」。
瞭解如何排解 VM 關機和重新啟動的問題。