Crittografia dei dati dei carichi di lavoro GPU in uso con i nodi GKE riservati


Questa pagina mostra come criptare i dati dei carichi di lavoro GPU in uso eseguendo i carichi di lavoro su Confidential GKE Nodes criptati. Scopri anche le limitazioni e le considerazioni che si applicano ai carichi di lavoro GPU eseguiti su questi nodi criptati.

Questa pagina è dedicata agli ingegneri e agli operatori della sicurezza che vogliono una maggiore sicurezza per i dati nei carichi di lavoro accelerati, come le attività di AI/ML. Prima di leggere questa pagina, assicurati di avere familiarità con i seguenti concetti:

Prima di iniziare

Prima di iniziare, assicurati di aver eseguito le seguenti operazioni:

  • Attiva l'API Google Kubernetes Engine.
  • Attiva l'API Google Kubernetes Engine
  • Se vuoi utilizzare Google Cloud CLI per questa attività, installala e poi inizializzala. Se hai già installato gcloud CLI, scarica l'ultima versione eseguendo gcloud components update.

Disponibilità

Per utilizzare Confidential GKE Nodes per eseguire carichi di lavoro GPU, devi soddisfare tutte le seguenti condizioni:

  • Devi utilizzare un cluster in modalità GKE Standard.
  • Il cluster e i nodi devono eseguire GKE versione 1.32.2-gke.1297000 o successive.
  • I nodi devono trovarsi in una zona che supporta NVIDIA Confidential Computing. Per ulteriori informazioni, vedi Visualizzare le zone supportate.
  • I nodi devono utilizzare VM spot, VM preemptible o l'avvio flessibile con provisioning in coda.
  • Per utilizzare l'avvio flessibile con il provisioning in coda, il cluster deve eseguire GKE versione 1.32.2-gke.1652000 o successive.
  • I nodi devono utilizzare una sola GPU NVIDIA H100 da 80 GB e il tipo di macchina a3-highgpu-1g.
  • I nodi devono utilizzare la tecnologia Confidential Computing Intel TDX.
  • Devi disporre di una quota per le GPU H100 80 prerilasciabili (compute.googleapis.com/preemptible_nvidia_h100_gpus) nelle posizioni dei nodi. Per ulteriori informazioni sulla gestione della quota, vedi Visualizza e gestisci le quote

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per creare nodi GKE confidenziali, chiedi all'amministratore di concederti i seguenti ruoli IAM nel progetto Google Cloud :

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Limitazioni

  • I cluster in modalità Autopilot non sono supportati.
  • Le funzionalità di condivisione della GPU, come la condivisione del tempo o le GPU multi-istanza, non sono supportate.

Abilita Confidential GKE Nodes in modalità Standard

Puoi eseguire carichi di lavoro GPU su Confidential GKE Nodes in cluster o node pool in modalità Standard. I Confidential GKE Nodes devono utilizzare la tecnologia Intel TDX Confidential Computing.

Abilita Confidential GKE Nodes nei nuovi cluster Standard

Quando crei un nuovo cluster in modalità Standard che utilizza i nodi GKE confidenziali, assicurati di specificare le seguenti impostazioni del cluster:

  • Località: una regione o una zona che supporta NVIDIA Confidential Computing. Per ulteriori informazioni, vedi Visualizzare le zone supportate.
  • Tecnologia Confidential Computing: Intel TDX
  • Versione del cluster: 1.32.2-gke.1297000 o successive

Per istruzioni, vedi Abilitare Confidential GKE Nodes sui cluster standard.

Abilita Confidential GKE Nodes nei nuovi node pool Standard

Puoi abilitare Confidential GKE Nodes nei nuovi node pool se il cluster non ha Confidential GKE Nodes abilitato a livello di cluster. Il cluster deve soddisfare i requisiti della sezione Disponibilità.

Per creare un nuovo pool di nodi GPU che utilizzi i nodi riservati di GKE, seleziona una delle seguenti opzioni:

Console

  1. Vai ai cluster Kubernetes

  2. Fai clic sul nome del cluster in modalità Standard da modificare.
  3. Fai clic su Aggiungi pool di nodi. Si apre la pagina Aggiungi un node pool.
  4. Nel riquadro Dettagli del pool di nodi, esegui le seguenti operazioni:
    1. Seleziona Specifica le località dei nodi.
    2. Seleziona solo le zone supportate elencate nella sezione Disponibilità.
    3. Assicurati che la versione del control plane sia 1.32.2-gke.1297000 o successiva.
  5. Nel menu di navigazione, fai clic su Nodi.
  6. Nel riquadro Configura le impostazioni del nodo, procedi nel seguente modo:
    1. Nella sezione Configurazione macchina, fai clic su GPU.
    2. Nel menu Tipo di GPU, seleziona NVIDIA H100 80 GB.
    3. Nel menu Numero di GPU, seleziona 1.
    4. Assicurati che l'opzione Abilita condivisione GPU non sia selezionata.
    5. Nella sezione Installazione del driver GPU, seleziona Gestito dall'utente.
    6. Nella sezione Tipo di macchina, assicurati che il tipo di macchina sia a3-highgpu-1g.
    7. Seleziona Abilita nodi sulle VM Spot.
  7. Quando è tutto pronto per creare il pool di nodi, fai clic su Crea.

gcloud

Puoi creare node pool GPU che eseguono Confidential GKE Nodes su VM spot o utilizzando l'opzione flex-start con provisioning in coda (anteprima).

  • Crea un pool di nodi GPU che esegua Confidential GKE Nodes su VM spot:

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --confidential-node-type=tdx --location=LOCATION \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --spot --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled \
        --machine-type=a3-highgpu-1g
    

    Sostituisci quanto segue:

    • NODE_POOL_NAME: un nome per il nuovo pool di nodi.
    • CLUSTER_NAME: il nome del cluster esistente.
    • LOCATION: la località del nuovo pool di nodi. La località deve supportare l'utilizzo delle GPU nei nodi riservati di GKE.
    • NODE_LOCATION1,NODE_LOCATION2,...: un elenco separato da virgole delle zone in cui eseguire i nodi. Queste zone devono supportare l'utilizzo di NVIDIA Confidential Computing. Per ulteriori informazioni, vedi Visualizzare le zone supportate.
  • Crea un pool di nodi GPU che esegua Confidential GKE Nodes utilizzando l'avvio flessibile con il provisioning in coda (anteprima):

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --machine-type=a3-highgpu-1g --confidential-node-type=tdx \
        --location=LOCATION \
        --flex-start --enable-queued-provisioning \
        --enable-autoscaling --num-nodes=0 --total-max-nodes=TOTAL_MAX_NODES \
        --location-policy=ANY --reservation-affinity=none --no-enable-autorepair \
        --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled
    

    Sostituisci TOTAL_MAX_NODES con il numero massimo di nodi a cui può essere scalato automaticamente il pool di nodi.

    Per ulteriori informazioni sulle opzioni di configurazione in avvio flessibile con provisioning in coda, vedi Esegui un workload su larga scala con avvio flessibile con provisioning in coda.

Abilita Confidential GKE Nodes nei node pool Standard esistenti

Puoi aggiornare i node pool Standard esistenti per utilizzare Flex-start se nel cluster non sono abilitati i nodi GKE confidenziali a livello di cluster. Assicurati che il cluster e il pool di nodi esistente soddisfino i requisiti elencati nella sezione Disponibilità.

Per aggiornare i tuoi node pool in modo che utilizzino la tecnologia Intel TDX Confidential Computing, consulta Aggiornare un node pool esistente.

Installa i driver GPU che supportano Confidential GKE Nodes

Dopo aver abilitato Confidential GKE Nodes nel pool di nodi GPU, devi installare i driver che supportano l'esecuzione di carichi di lavoro GPU su questi nodi.

Questa modifica richiede la ricreazione dei nodi, il che può causare interruzioni ai carichi di lavoro in esecuzione. Per informazioni dettagliate su questa modifica specifica, trova la riga corrispondente nella tabella Modifiche manuali che ricreano i nodi utilizzando una strategia di upgrade dei nodi senza rispettare le norme di manutenzione. Per saperne di più sugli aggiornamenti dei nodi, consulta Pianificare le interruzioni dell'aggiornamento dei nodi.

Per istruzioni, vedi la scheda "COS" in Installare manualmente i driver GPU NVIDIA.

Risoluzione dei problemi

Per informazioni sulla risoluzione dei problemi, vedi Risolvere i problemi relativi alle GPU in GKE.

Passaggi successivi