使用機密 GKE 節點加密 GPU 工作負載資料


本頁面說明如何在加密的機密 Google Kubernetes Engine 節點上執行工作負載,藉此加密使用中的 GPU 工作負載資料。您也會瞭解在這些加密節點上執行的 GPU 工作負載適用的限制和注意事項。

本頁面適用於安全工程師和作業人員,他們希望提升加速工作負載 (例如 AI/機器學習工作) 中資料的安全性。閱讀本頁面之前,請務必熟悉下列概念:

事前準備

開始之前,請確認你已完成下列工作:

  • 啟用 Google Kubernetes Engine API。
  • 啟用 Google Kubernetes Engine API
  • 如要使用 Google Cloud CLI 執行這項工作,請安裝初始化 gcloud CLI。如果您先前已安裝 gcloud CLI,請執行 gcloud components update,取得最新版本。

可用性

如要使用機密 GKE 節點執行 GPU 工作負載,必須符合下列所有條件:

  • 您必須使用 GKE Standard 模式叢集。
  • 叢集和節點必須執行 GKE 1.32.2-gke.1297000 以上版本。
  • 節點必須位於支援 NVIDIA 機密運算的區域。詳情請參閱「查看支援的區域」。
  • 節點必須使用 Spot VM、先占 VM,或採用排隊佈建的彈性啟動模式。
  • 如要搭配排隊佈建功能使用彈性啟動,叢集必須執行 GKE 1.32.2-gke.1652000 以上版本。
  • 節點只能使用一個 NVIDIA H100 80 GB GPU 和 a3-highgpu-1g 機器類型。
  • 節點必須使用 Intel TDX 機密運算技術。
  • 您必須在節點位置擁有先占 H100 80 GPU 的配額 (compute.googleapis.com/preemptible_nvidia_h100_gpus)。如要進一步瞭解如何管理配額,請參閱「查看及管理配額」。

必要的角色

如要取得建立機密 GKE 節點所需的權限,請要求管理員在 Google Cloud 專案中授予您下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

您或許還可透過自訂角色或其他預先定義的角色取得必要權限。

限制

  • 不支援 Autopilot 模式叢集。
  • 不支援 GPU 共用功能,例如分時或多執行個體 GPU。

在 Standard 模式中啟用機密 GKE 節點

您可以在 Standard 模式的叢集或節點集區中,透過機密 GKE 節點執行 GPU 工作負載。機密 GKE 節點必須使用 Intel TDX 機密運算技術。

在新 Standard 叢集中啟用機密 GKE 節點

建立使用機密 GKE 節點的新標準模式叢集時,請務必指定下列叢集設定:

  • 位置:支援 NVIDIA 機密運算的區域或地帶。 詳情請參閱「查看支援的區域」。
  • 機密運算技術:Intel TDX
  • 叢集版本:1.32.2-gke.1297000 以上版本

如需操作說明,請參閱「在 Standard 叢集上啟用機密 GKE 節點」。

在新 Standard 節點集區中啟用機密 GKE 節點

如果叢集未在叢集層級啟用機密 GKE 節點,您可以在新的節點集區中啟用機密 GKE 節點。叢集必須符合「適用情形」一節中的規定。

如要建立使用機密 GKE 節點的新 GPU 節點集區,請選取下列其中一個選項:

主控台

  1. 前往 Kubernetes 叢集

  2. 按一下要修改的標準模式叢集名稱。
  3. 按一下 「Add node pool」(新增節點集區)。「新增節點集區」頁面隨即開啟。
  4. 在「節點集區詳細資料」窗格中,執行下列操作:
    1. 選取「指定節點位置」
    2. 僅選取「可用性」專區中列出的支援區域。
    3. 確認控制平面版本為 1.32.2-gke.1297000 以上。
  5. 在導覽選單中,按一下「節點」
  6. 在「選取節點設定」窗格中,執行下列操作:
    1. 在「Machine configuration」(機器設定) 區段中,按一下「GPU」
    2. 在「GPU type」(GPU 類型) 選單中,選取「NVIDIA H100 80GB」
    3. 在「Number of GPUs」(GPU 數量) 選單中,選取「1」
    4. 確認未選取「啟用 GPU 共用功能」
    5. 在「GPU Driver installation」(GPU 驅動程式安裝) 區段中,選取「User-managed」(使用者管理)
    6. 在「Machine type」(機器類型) 部分中,確認機器類型為 a3-highgpu-1g
    7. 選取「啟用 Spot VM 上的節點」
  7. 準備好建立節點集區時,請按一下「建立」

gcloud

您可以建立 GPU 節點集區,在 Spot VM 上執行機密 GKE 節點,或使用排入佈建佇列的彈性啟動 (搶先版)。

  • 建立 GPU 節點集區,在 Spot VM 上執行機密 GKE 節點:

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --confidential-node-type=tdx --location=LOCATION \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --spot --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled \
        --machine-type=a3-highgpu-1g
    

    更改下列內容:

    • NODE_POOL_NAME:新節點集區的名稱。
    • CLUSTER_NAME:現有叢集的名稱。
    • LOCATION:新節點集區的位置。 該位置必須支援在機密 GKE 節點中使用 GPU。
    • NODE_LOCATION1,NODE_LOCATION2,...:以逗號分隔的可用區清單,用於執行節點。這些區域必須支援使用 NVIDIA 機密運算。詳情請參閱「查看支援的區域」。
  • 使用彈性啟動搭配排隊佈建 (預先發布版),建立執行機密 GKE 節點的 GPU 節點集區:

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --machine-type=a3-highgpu-1g --confidential-node-type=tdx \
        --location=LOCATION \
        --flex-start --enable-queued-provisioning \
        --enable-autoscaling --num-nodes=0 --total-max-nodes=TOTAL_MAX_NODES \
        --location-policy=ANY --reservation-affinity=none --no-enable-autorepair \
        --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled
    

    TOTAL_MAX_NODES 替換為節點集區可自動調度的節點數量上限。

    如要進一步瞭解彈性啟動搭配佇列佈建的設定選項,請參閱「使用彈性啟動搭配佇列佈建功能,執行大規模工作負載」。

在現有的 Standard 節點集區中啟用機密 GKE 節點

如果叢集未在叢集層級啟用機密 GKE 節點,您可以更新現有的 Standard 節點集區,改用彈性啟動。確認叢集和現有節點集區符合「可用性」一節列出的需求。

如要更新節點集區,改用 Intel TDX 機密運算技術,請參閱「更新現有節點集區」。

安裝支援機密 GKE 節點的 GPU 驅動程式

在 GPU 節點集區中啟用機密 GKE 節點後,您必須安裝支援在這些節點上執行 GPU 工作負載的驅動程式。

這項變更需要重新建立節點,可能會導致執行中的工作負載中斷。如要瞭解這項特定變更的詳細資訊,請在「手動變更,使用節點升級策略重建節點,但不遵守維護政策」表格中,找出對應的資料列。如要進一步瞭解節點更新,請參閱「規劃節點更新中斷」。

如需操作說明,請參閱「手動安裝 NVIDIA GPU 驅動程式」一文中的「COS」分頁。

疑難排解

如需疑難排解資訊,請參閱「排解 GKE 中的 GPU 問題」。

後續步驟