本頁面說明如何在加密的機密 Google Kubernetes Engine 節點上執行工作負載,藉此加密使用中的 GPU 工作負載資料。您也會瞭解在這些加密節點上執行的 GPU 工作負載適用的限制和注意事項。
本頁面適用於安全工程師和作業人員,他們希望提升加速工作負載 (例如 AI/機器學習工作) 中資料的安全性。閱讀本頁面之前,請務必熟悉下列概念:
事前準備
開始之前,請確認你已完成下列工作:
- 啟用 Google Kubernetes Engine API。 啟用 Google Kubernetes Engine API
- 如要使用 Google Cloud CLI 執行這項工作,請安裝並初始化 gcloud CLI。如果您先前已安裝 gcloud CLI,請執行
gcloud components update
,取得最新版本。
可用性
如要使用機密 GKE 節點執行 GPU 工作負載,必須符合下列所有條件:
- 您必須使用 GKE Standard 模式叢集。
- 叢集和節點必須執行 GKE 1.32.2-gke.1297000 以上版本。
- 節點必須位於支援 NVIDIA 機密運算的區域。詳情請參閱「查看支援的區域」。
- 節點必須使用 Spot VM、先占 VM,或採用排隊佈建的彈性啟動模式。
- 如要搭配排隊佈建功能使用彈性啟動,叢集必須執行 GKE 1.32.2-gke.1652000 以上版本。
- 節點只能使用一個 NVIDIA H100 80 GB GPU 和
a3-highgpu-1g
機器類型。 - 節點必須使用 Intel TDX 機密運算技術。
- 您必須在節點位置擁有先占 H100 80 GPU 的配額 (
compute.googleapis.com/preemptible_nvidia_h100_gpus
)。如要進一步瞭解如何管理配額,請參閱「查看及管理配額」。
必要的角色
如要取得建立機密 GKE 節點所需的權限,請要求管理員在 Google Cloud 專案中授予您下列 IAM 角色:
-
建立機密 GKE 節點:
Kubernetes Engine 叢集管理員 (
roles/container.clusterAdmin
) -
部署 GPU 工作負載:
Kubernetes Engine 開發人員 (
roles/container.developer
)
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
限制
- 不支援 Autopilot 模式叢集。
- 不支援 GPU 共用功能,例如分時或多執行個體 GPU。
在 Standard 模式中啟用機密 GKE 節點
您可以在 Standard 模式的叢集或節點集區中,透過機密 GKE 節點執行 GPU 工作負載。機密 GKE 節點必須使用 Intel TDX 機密運算技術。
在新 Standard 叢集中啟用機密 GKE 節點
建立使用機密 GKE 節點的新標準模式叢集時,請務必指定下列叢集設定:
- 位置:支援 NVIDIA 機密運算的區域或地帶。 詳情請參閱「查看支援的區域」。
- 機密運算技術:Intel TDX
- 叢集版本:1.32.2-gke.1297000 以上版本
如需操作說明,請參閱「在 Standard 叢集上啟用機密 GKE 節點」。
在新 Standard 節點集區中啟用機密 GKE 節點
如果叢集未在叢集層級啟用機密 GKE 節點,您可以在新的節點集區中啟用機密 GKE 節點。叢集必須符合「適用情形」一節中的規定。
如要建立使用機密 GKE 節點的新 GPU 節點集區,請選取下列其中一個選項:
主控台
- 按一下要修改的標準模式叢集名稱。
- 按一下 「Add node pool」(新增節點集區)。「新增節點集區」頁面隨即開啟。
- 在「節點集區詳細資料」窗格中,執行下列操作:
- 在導覽選單中,按一下「節點」。
- 在「選取節點設定」窗格中,執行下列操作:
- 在「Machine configuration」(機器設定) 區段中,按一下「GPU」。
- 在「GPU type」(GPU 類型) 選單中,選取「NVIDIA H100 80GB」。
- 在「Number of GPUs」(GPU 數量) 選單中,選取「1」。
- 確認未選取「啟用 GPU 共用功能」。
- 在「GPU Driver installation」(GPU 驅動程式安裝) 區段中,選取「User-managed」(使用者管理)。
- 在「Machine type」(機器類型) 部分中,確認機器類型為
a3-highgpu-1g
。 - 選取「啟用 Spot VM 上的節點」。
- 準備好建立節點集區時,請按一下「建立」。
gcloud
您可以建立 GPU 節點集區,在 Spot VM 上執行機密 GKE 節點,或使用排入佈建佇列的彈性啟動 (搶先版)。
建立 GPU 節點集區,在 Spot VM 上執行機密 GKE 節點:
gcloud container node-pools create NODE_POOL_NAME \ --cluster=CLUSTER_NAME \ --confidential-node-type=tdx --location=LOCATION \ --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \ --spot --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled \ --machine-type=a3-highgpu-1g
更改下列內容:
NODE_POOL_NAME
:新節點集區的名稱。CLUSTER_NAME
:現有叢集的名稱。LOCATION
:新節點集區的位置。 該位置必須支援在機密 GKE 節點中使用 GPU。NODE_LOCATION1,NODE_LOCATION2,...
:以逗號分隔的可用區清單,用於執行節點。這些區域必須支援使用 NVIDIA 機密運算。詳情請參閱「查看支援的區域」。
使用彈性啟動搭配排隊佈建 (預先發布版),建立執行機密 GKE 節點的 GPU 節點集區:
gcloud container node-pools create NODE_POOL_NAME \ --cluster=CLUSTER_NAME \ --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \ --machine-type=a3-highgpu-1g --confidential-node-type=tdx \ --location=LOCATION \ --flex-start --enable-queued-provisioning \ --enable-autoscaling --num-nodes=0 --total-max-nodes=TOTAL_MAX_NODES \ --location-policy=ANY --reservation-affinity=none --no-enable-autorepair \ --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled
將
TOTAL_MAX_NODES
替換為節點集區可自動調度的節點數量上限。如要進一步瞭解彈性啟動搭配佇列佈建的設定選項,請參閱「使用彈性啟動搭配佇列佈建功能,執行大規模工作負載」。
在現有的 Standard 節點集區中啟用機密 GKE 節點
如果叢集未在叢集層級啟用機密 GKE 節點,您可以更新現有的 Standard 節點集區,改用彈性啟動。確認叢集和現有節點集區符合「可用性」一節列出的需求。
如要更新節點集區,改用 Intel TDX 機密運算技術,請參閱「更新現有節點集區」。
安裝支援機密 GKE 節點的 GPU 驅動程式
在 GPU 節點集區中啟用機密 GKE 節點後,您必須安裝支援在這些節點上執行 GPU 工作負載的驅動程式。
這項變更需要重新建立節點,可能會導致執行中的工作負載中斷。如要瞭解這項特定變更的詳細資訊,請在「手動變更,使用節點升級策略重建節點,但不遵守維護政策」表格中,找出對應的資料列。如要進一步瞭解節點更新,請參閱「規劃節點更新中斷」。
如需操作說明,請參閱「手動安裝 NVIDIA GPU 驅動程式」一文中的「COS」分頁。
疑難排解
如需疑難排解資訊,請參閱「排解 GKE 中的 GPU 問題」。