本頁面由 Cloud Translation API 翻譯而成。

管理 GPU 和 TPU 的 GKE 節點中斷情形

自動駕駛標準

在長期執行的 GKE 叢集生命週期中，基礎架構中斷會導致Google Cloud 問題，進而造成工作負載定期中斷。發生這些自動事件的原因可能是為了回應排程決策 (搶占事件)、控制層或節點更新 (包括 GKE 節點自動升級 (維護事件))，或是為了修正偵測到的問題 (終止事件)。

本頁面說明 GKE 中的節點中斷情形，並協助您監控維護通知，以及盡量減少附加 GPU 和 TPU 的 GKE 節點中斷情形。

本文件適用於負責管理基礎技術架構生命週期的平台管理員和作業人員。如要進一步瞭解我們在 Google Cloud 內容中提及的常見角色和範例工作，請參閱「常見的 GKE 使用者角色和工作」。

GKE 中的基礎架構中斷是什麼意思？

GKE 叢集會管理 GKE 節點的生命週期。這些節點是在 Compute Engine VM 上佈建，因此會定期發生下列中斷情形：

偵測到的問題獲得修正 (TerminationEvent)：發生這類事件的原因是 Google Cloud 偵測到問題，並中斷叢集基礎架構。TerminationEvent 事件不支援正常關機。下列問題會觸發 TerminationEvent 事件：
- 自動修復：如果節點持續未通過健康狀態檢查，GKE 就會修復該節點。
- 如果實體機器的硬體或軟體發生錯誤，導致 VM 停止運作，就會發生 HostError。
注意： 基礎 Compute Engine 的維護事件視為自動維護事件。這類事件會略過 GKE 維護政策和排除項目。
維護或升級事件 (MaintenanceEvent)：當 Google Cloud 需要中斷 VM 執行維護作業時，就會發生這類事件。下列維護工作會觸發 MaintenanceEvent 事件：
- 維護事件： Google Cloud 升級基礎主機時會發生。
- 節點更新 (包括節點自動升級) 會在 GKE 更新節點上執行的 Kubernetes 版本時發生。
如要進一步瞭解您和 GKE 如何在叢集生命週期內管理變更，請參閱「變更類型」。
排程決策的回應 (PreemptionEvent)：當Google Cloud 需要搶占 VM，為優先順序較高的資源提供容量時，就會發生這種情況。PreemptionEvent 事件可以是下列任一項：
- 驅逐：當可搶占或現成基礎架構遭到搶占，以容納優先順序較高的 VM 時，就會發生這種情況。
- 重整：GKE 預先終止較小的 TPU 配量，以容納較大的 TPU 配量時，就會發生重整。只有在 TPU 節點上才會發生重組。

在長期執行的 GKE 叢集生命週期中，節點可能會定期中斷，導致訓練或服務工作負載受到影響。如果這些中斷事件影響到執行 AI/機器學習工作負載的 GKE 節點，GKE 就必須重新啟動執行中的工作負載和基礎節點。

為什麼 GPU 和 TPU 需要中斷管理

大多數 Compute Engine VM 的主機維護政策都設為即時遷移，因此執行中的工作負載通常不會受到影響。不過，特定類別的 VM 不支援即時遷移，包括已連結 GPU 和 TPU 的 VM。如果主機事件發生在 TPU 節點內的 VM 中，整個節點會中斷，然後重新排定時間，因為所有維護事件都是在節點層級協調。因此，如果您建立含有數百個 VM 的 TPU 節點，所有這些 VM 都會收到相同的維護事件排程。

發生主機事件時，GKE 會終止節點及其 Pod。如果 Pod 是以較大型工作負載 (例如 Job 或 Deployment) 的一部分部署，GKE 會在受影響的節點上重新啟動 Pod。

您或使用的架構必須處理工作負載設定，才能適當回應維護事件。舉例來說，您可以儲存 AI 訓練作業的狀態，減少資料遺失。

如要管理 AI/機器學習工作負載的中斷情形，請採取下列做法：

監控節點和節點集區中斷情形
監控維護通知
將服務中斷的影響降至最低

監控節點中斷情形

下列 GKE 系統指標會回報自上次取樣以來，GKE 節點的中斷次數 (指標每 60 秒取樣一次)：

kubernetes.io/node/interruption_count

interruption_type (例如 TerminationEvent、MaintenanceEvent 或 PreemptionEvent) 和 interruption_reason (例如 HostError、Eviction 或 AutoRepair) 欄位可協助提供節點中斷的原因。

如要取得專案中叢集 TPU 節點的中斷情形和原因明細，請使用下列 PromQL 查詢：

  sum by (interruption_type,interruption_reason)(
    sum_over_time(
      kubernetes_io:node_interruption_count{monitored_resource="k8s_node"}[${__interval}]))

如要只查看主機維護事件，請更新查詢，篩選 interruption_reason 的 HW/SW Maintenance 值。使用下列 PromQL 查詢：

  sum by (interruption_type,interruption_reason)(
    sum_over_time(
      kubernetes_io:node_interruption_count{monitored_resource="k8s_node", interruption_reason="HW/SW Maintenance"}[${__interval}]))

如要查看依節點集區匯總的中斷次數，請使用下列 PromQL 查詢：

  sum by (node_pool_name,interruption_type,interruption_reason)(
    sum_over_time(
      kubernetes_io:node_pool_interruption_count{monitored_resource="k8s_node_pool", interruption_reason="HW/SW Maintenance", node_pool_name=NODE_POOL_NAME }[${__interval}]))

監控維護通知

當節點及其基礎 VM 預計發生中斷性主機事件，以及這些事件開始生效時，Compute Engine 會發出通知。通知內容包括預計開始時間、活動類型和其他詳細資料。

在 GKE 1.31.1-gke.2008000 以上版本中，您可以監控即將進行的維護作業，包括本節所述的事件。

已排定近期維護作業，但尚未開始

在附加 GPU 或 TPU 的 VM 發生排定的維護事件前，Compute Engine 會將通知推送至所有 VM。這些通知會回報維護期間的開始時間。如果 VM 排定即將進行維護作業，但作業尚未啟動，GKE 會在節點標籤中加入 scheduled-maintenance-time。

如要在節點層級查詢這些通知，請執行下列指令：

kubectl get nodes -l cloud.google.com/scheduled-maintenance-time \
    -L cloud.google.com/scheduled-maintenance-time

輸出結果會與下列內容相似：

NAME                         STATUS    SCHEDULED-MAINTENANCE-TIME
<gke-accelerator-node-name>  Ready     1733083200
<gke-accelerator-node-name>  Ready     1733083200
[...]

SCHEDULED-MAINTENANCE-TIME 欄代表秒數，以 Unix 紀元時間格式顯示。

如要在節點中繼資料層級查詢這些通知，請檢查執行個體是否有維護事件通知。

對於支援進階維護的加速器最佳化機器系列，您可以存取 upcoming-maintenance 端點，取得排定和已啟動的維護事件相關資訊。

將服務中斷的影響降至最低

Compute Engine 會發送即將進行維護作業的通知，並排定維護時段。在收到通知和維護期間開始時間之間，你可以選擇：

手動啟動主機維護事件。
讓 Compute Engine 依排程啟動維護作業。

手動啟動主機維護事件

當 Compute Engine 發出有關排定維護事件的通知時，您可以手動啟動維護作業，時間可配合您的作業排程，例如在活動減少的期間。

在節點集區的節點上，將節點標籤 cloud.google.com/perform-maintenance 設為 true。例如：

kubectl label nodes <node-name> cloud.google.com/perform-maintenance=true

如果您啟動維護事件，GKE 會執行下列作業：

汙染節點。
妥善逐出 Pod。
要求 Compute Engine 立即啟動維護事件，不必等到排定的時間。

Compute Engine 會依排程啟動維護事件

如果沒有啟動主機維護事件，Compute Engine 會自行啟動排定的維護事件。自 GKE 1.33 版起，維護期間開始時，節點不會遭到汙染，Pod 也不會遭到逐出。

維護事件開始時，節點可能會關機一或多次，並在即將終止前短時間內發出通知。在這些情況下，GKE 會盡力終止工作負載，並正常驅逐 Pod。

預定維護作業開始

排定維護作業開始時，Compute Engine 會更新 http://metadata.google.internal/computeMetadata/v1/instance/attributes/ 目錄中的中繼資料。Compute Engine 會更新中繼資料標籤，如下所示：

將 maintenance-event 設為 TERMINATE_ON_HOST_MAINTENANCE。
在 upcoming-maintenance 中，將 maintenance_status 設為 ONGOING。

GKE 會處理排定的主機維護事件，視您是手動觸發還是讓 GKE 自動執行而定。

設定 GKE，以便正常終止工作負載

在本節中，您將設定 GKE 來管理應用程式生命週期，並盡量減少工作負載中斷情形。如未設定寬限期，寬限期預設為 30 秒。

GKE 會盡量正常終止這些 Pod，並執行您定義的終止動作，例如儲存訓練狀態。GKE 會在寬限期開始時，將 SIGTERM 信號傳送至 Pod。如果 Pod 在寬限期結束前未結束，GKE 會向 Pod 中任何容器內仍在執行的程序傳送後續 SIGKILL 信號。

如要設定正常終止期，請在 Pod 資訊清單的 spec.terminationGracePeriodSeconds 欄位中，設定終止寬限期 (秒)。舉例來說，如要將通知時間設為 10 分鐘，請在 Pod 資訊清單中將 spec.terminationGracePeriodSeconds 欄位設為 600 秒，如下所示：

    spec:
      terminationGracePeriodSeconds: 600

建議您設定足夠長的終止寬限期，讓所有進行中的工作都能在通知時間範圍內完成。如果您的工作負載使用 MaxText、Pax 或 JAX 等機器學習架構搭配 Orbax，工作負載可以擷取關機 SIGTERM 信號，並啟動檢查點程序。詳情請參閱 TPU 自動檢查點。

安全終止程序

手動啟動維護事件時，Compute Engine 會更新 maintenance-event 中繼資料鍵，發出即將關閉機器的信號。GKE 開始安全終止。

下列工作流程說明 GKE 如何在節點即將關機時，執行正常節點終止作業：

60 秒內會發生以下情況：
1. 系統元件會套用 cloud.google.com/active-node-maintenance 節點標籤集，指出工作負載正在停止。ONGOING
2. GKE 會套用節點 taint，防止系統將新的 Pod 排程到節點上。taint 具有 cloud.google.com/impending-node-termination:NoSchedule 鍵。由於已知會發生終止作業，因此建議您不要修改工作負載，以容許這項汙點。
維護處理常式元件會先逐一驅逐工作負載 Pod，然後驅逐系統 Pod (例如 kube-system)，藉此開始驅逐 Pod。
GKE 會將SIGTERM關機信號傳送至節點上執行的工作負載 Pod，提醒這些 Pod 即將關機。廣告連播可使用這項快訊完成任何進行中的工作。GKE 會盡量正常終止這些 Pod。
驅逐作業完成後，GKE 會將 cloud.google.com/active-node-maintenance 標籤的值更新為 terminating，表示節點已準備好終止。

之後，節點會終止，並分配替代節點。程序完成後，GKE 會清除標籤和汙點。如要使用 GPU 或 TPU 延長工作負載的終止時間，請完成「手動啟動主機維護事件」一節中的步驟。

監控進行中的安全終止作業進度

您可以依下列正常終止事件篩選 GKE 記錄：

當 VM 偵測到因節點即將終止 (例如 Compute Engine 主機維護事件) 而導致的中斷時，GKE 會在停止工作負載時將 cloud.google.com/active-node-maintenance 設為 ONGOING，並在工作負載完成且節點準備終止時設為 terminating。
限制排定新工作負載時，GKE 會套用cloud.google.com/impending-node-termination:NoSchedule 汙點。

透過機會維護，盡量減少執行中工作負載的中斷情況

當 GKE 偵測到搭載 GPU 或 TPU 的節點處於閒置狀態時，系統會自動觸發維護作業，盡量減少執行中工作負載的中斷情形。如要啟用這項功能，請建立新的節點集區。您無法在現有節點集區中啟用機會性維護。

建立採用機會維護的新節點集區

以下指令示範如何建立已啟用機會性維護的節點集區：

gcloud beta container node-pools create NODE_POOL_NAME \
    --cluster CLUSTER_NAME \
    --accelerator ACCELERATOR_ARG \
    --machine-type MACHINE_TYPE \
    --num-nodes NODE_COUNT \
    --zone ZONE \
    --project=PROJECT_ID \
    --opportunistic-maintenance=node-idle-time=NODE_IDLE_TIME,min-nodes=MIN_NODES,window=WINDOW

替換下列值：

NODE_POOL_NAME：GKE 節點集區的名稱。
CLUSTER_NAME：GKE 叢集名稱。
NODE_IDLE_TIME：節點可保持閒置的時間長度 (也就是沒有執行耗用加速器的工作負載)，超過這個時間就會觸發維護作業。值代表時間長度 (以秒為單位)，最多可有 9 個小數位數，並應以「s」字元結尾，例如：80000s。
MIN_NODES：節點集區中必須提供的節點數量下限。如果維護作業會導致執行中的節點數量低於這個值 (例如 10)，系統就會封鎖維護作業。
WINDOW：以秒為單位，表示可執行機會性維護作業的時間範圍。值結尾為 s 字元，舉例來說，如果值為 14 天或 1209600s，表示只有在預定維護日期前兩週，才能執行機會性維護作業。值為 28 天或 2419200s 時，系統會在排定的維護期間隨時執行機會性維護作業。Compute Engine 主機維護期間與 GKE 維護期間不同，後者決定 GKE 叢集維護作業的執行時間，且需另外設定。

機會維護作業的設定範例

請看以下範例。您有一個包含四個節點的節點集區，且機會性維護設定設為 --opportunistic-maintenance=node-idle-time=600s,window=2419200s,min-nodes=3。在此情況下，會發生下列情況：

node1 正在執行 GPU 工作負載。這個節點並未閒置，因此系統會略過。
node2 已閒置 60 秒。這個節點閒置時間不足，因此系統會略過。
node3 已閒置 600 秒。這個節點符合閒置要求。
node4 已閒置 600 秒。這個節點符合閒置要求。

node3 和 node4 都符合閒置需求。不過，由於 min-nodes 選項的值設為 3，因此只有其中一個節點會觸發機會性維護。

檢查節點的設定和狀態 (採用機會性維護)

執行下列指令，檢查節點是否已設定機會性維護：

kubectl describe node NODE_NAME | grep node.gke.io/opportunistic-config

將 NODE_NAME 替換為要檢查的節點名稱。

檢查目前是否正在維護以機會性維護設定的節點：

kubectl describe node NODE_NAME | grep node.gke.io/maintenance-state

如果節點是由機會性維護觸發，maintenance-state 註解會顯示 opportunistic-triggered 為 true。

限制

請注意，機會性維護有下列限制：

這項功能只能與 GPU 和 TPU 節點集區搭配使用。
叢集自動調度資源功能會縮減閒置節點，因此機會性維護與叢集自動調度資源功能不相容。
如果是多主機 TPU 節點集區，min-nodes-per-pool 設定的值應為 0，因為這些節點集區是不可分割的。
最低支援的 GKE 版本為 1.33.3-gke.1118000。
僅支援包含 can_reschedule=TRUE notification 的預定維護作業。
如要停用這項功能，請重新建立節點集區，但不使用相關旗標。或者，您也可以使用 cloud.google.com/opportunistic-disable=true 手動停用特定節點上的這項功能。
在極少數情況下，節點的維護作業可能需要較長時間才能完成。使用這項功能的顧客可能會在一段時間內，發現可用的節點數量減少，甚至降至 min-nodes-per-pool 設定的值。