Cette page vous explique comment chiffrer les données de charge de travail GPU en cours d'utilisation en exécutant les charges de travail sur des nœuds Confidential Google Kubernetes Engine (GKE) chiffrés. Vous découvrirez également les limites et les points à prendre en compte pour les charges de travail GPU exécutées sur ces nœuds chiffrés.
Cette page s'adresse aux ingénieurs et opérateurs en sécurité qui souhaitent améliorer la sécurité des données dans les charges de travail accélérées, telles que les tâches d'IA/ML. Avant de lire cette page, assurez-vous de maîtriser les concepts suivants :
Avant de commencer
Avant de commencer, effectuez les tâches suivantes :
- Activez l'API Google Kubernetes Engine. Activer l'API Google Kubernetes Engine
- Si vous souhaitez utiliser Google Cloud CLI pour cette tâche, installez puis initialisez gcloud CLI. Si vous avez déjà installé gcloud CLI, assurez-vous de disposer de la dernière version en exécutant la commande
gcloud components update
.
Disponibilité
Pour utiliser des nœuds Confidential GKE Node afin d'exécuter des charges de travail GPU, vous devez remplir toutes les conditions suivantes :
- Vous devez utiliser un cluster en mode GKE Standard.
- Le cluster et les nœuds doivent exécuter GKE version 1.32.2-gke.1297000 ou ultérieure.
- Les nœuds doivent se trouver dans une zone compatible avec NVIDIA Confidential Computing. Pour en savoir plus, consultez Afficher les zones compatibles.
- Les nœuds doivent utiliser des VM Spot, des VM préemptives ou un démarrage flexible avec provisionnement en file d'attente.
- Pour utiliser le démarrage flexible avec le provisionnement en file d'attente, le cluster doit exécuter GKE version 1.32.2-gke.1652000 ou ultérieure.
- Les nœuds ne doivent utiliser qu'un seul GPU NVIDIA H100 80 Go et le type de machine
a3-highgpu-1g
. - Les nœuds doivent utiliser la technologie d'informatique confidentielle Intel TDX.
- Vous devez disposer d'un quota de GPU H100 80 préemptifs (
compute.googleapis.com/preemptible_nvidia_h100_gpus
) dans les emplacements de vos nœuds. Pour en savoir plus sur la gestion de votre quota, consultez Afficher et gérer les quotas.
Rôles requis
Pour obtenir les autorisations nécessaires pour créer des nœuds GKE confidentiels, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le projet Google Cloud :
-
Créer des nœuds Confidential GKE Nodes :
Administrateur de cluster Kubernetes Engine (
roles/container.clusterAdmin
) -
Déployer des charges de travail GPU :
Développeur sur Kubernetes Engine (
roles/container.developer
)
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Limites
- Les clusters en mode Autopilot ne sont pas compatibles.
- Les fonctionnalités de partage de GPU, telles que le temps partagé ou les GPU multi-instances, ne sont pas prises en charge.
Activer les nœuds Confidential GKE Node en mode Standard
Vous pouvez exécuter des charges de travail GPU sur des nœuds Confidential GKE Node dans des clusters ou des pools de nœuds en mode Standard. Les nœuds Confidential GKE Node doivent utiliser la technologie d'informatique confidentielle Intel TDX.
Activer les nœuds Confidential GKE Node dans de nouveaux clusters Standard
Lorsque vous créez un cluster en mode Standard qui utilise des nœuds GKE confidentiels, assurez-vous de spécifier les paramètres de cluster suivants :
- Emplacement : région ou zone compatible avec l'informatique confidentielle NVIDIA. Pour en savoir plus, consultez Afficher les zones compatibles.
- Technologie d'informatique confidentielle : Intel TDX
- Version du cluster : 1.32.2-gke.1297000 ou version ultérieure
Pour obtenir des instructions, consultez Activer les nœuds Confidential GKE Node sur des clusters standards.
Activer les nœuds Confidential GKE Node dans de nouveaux pools de nœuds Standard
Vous pouvez activer les nœuds Confidential GKE Node dans de nouveaux pools de nœuds si les nœuds Confidential GKE Node ne sont pas activés au niveau du cluster. Le cluster doit répondre aux exigences de la section Disponibilité.
Pour créer un pool de nœuds GPU qui utilise des nœuds Confidential GKE Node, sélectionnez l'une des options suivantes :
Console
- Cliquez sur le nom du cluster en mode Standard à modifier.
- Cliquez sur Ajouter un pool de nœuds. La page Ajouter un pool de nœuds s'ouvre.
- Dans le volet Détails du pool de nœuds, procédez comme suit :
- Sélectionnez Spécifier les emplacements de nœuds.
- Sélectionnez uniquement les zones compatibles listées dans la section Disponibilité.
- Assurez-vous que la version du plan de contrôle est 1.32.2-gke.1297000 ou ultérieure.
- Dans le menu de navigation, cliquez sur Nœuds.
- Dans le volet Configurer les paramètres du nœud, procédez comme suit :
- Dans la section Configuration de la machine, cliquez sur GPU.
- Dans le menu Type de GPU, sélectionnez NVIDIA H100 80 Go.
- Dans le menu Nombre de GPU, sélectionnez 1.
- Assurez-vous que l'option Activer le partage de GPU n'est pas sélectionnée.
- Dans la section Installation du pilote de GPU, sélectionnez Géré par l'utilisateur.
- Dans la section Type de machine, assurez-vous que le type de machine est
a3-highgpu-1g
. - Sélectionnez Activer les nœuds sur les VM Spot.
- Lorsque vous êtes prêt à créer le pool de nœuds, cliquez sur Créer.
gcloud
Vous pouvez créer des pools de nœuds GPU qui exécutent des nœuds Confidential GKE sur des spot VM ou en utilisant le démarrage flexible avec provisionnement en file d'attente (preview).
Créez un pool de nœuds GPU qui exécute des nœuds Confidential GKE sur des VM Spot :
gcloud container node-pools create NODE_POOL_NAME \ --cluster=CLUSTER_NAME \ --confidential-node-type=tdx --location=LOCATION \ --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \ --spot --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled \ --machine-type=a3-highgpu-1g
Remplacez les éléments suivants :
NODE_POOL_NAME
: nom de votre nouveau pool de nœuds.CLUSTER_NAME
: nom de votre cluster existant.LOCATION
: emplacement de votre nouveau pool de nœuds. L'emplacement doit être compatible avec l'utilisation de GPU dans les nœuds Confidential GKE Node.NODE_LOCATION1,NODE_LOCATION2,...
: liste de zones séparées par une virgule dans lesquelles exécuter les nœuds. Ces zones doivent être compatibles avec l'informatique confidentielle NVIDIA. Pour en savoir plus, consultez Afficher les zones compatibles.
Créez un pool de nœuds GPU qui exécute des nœuds Confidential GKE Node en utilisant le démarrage flexible avec provisionnement en file d'attente (preview) :
gcloud container node-pools create NODE_POOL_NAME \ --cluster=CLUSTER_NAME \ --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \ --machine-type=a3-highgpu-1g --confidential-node-type=tdx \ --location=LOCATION \ --flex-start --enable-queued-provisioning \ --enable-autoscaling --num-nodes=0 --total-max-nodes=TOTAL_MAX_NODES \ --location-policy=ANY --reservation-affinity=none --no-enable-autorepair \ --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled
Remplacez
TOTAL_MAX_NODES
par le nombre maximal de nœuds que le pool de nœuds peut mettre à l'échelle automatiquement.Pour en savoir plus sur les options de configuration du démarrage flexible avec provisionnement en file d'attente, consultez Exécuter une charge de travail à grande échelle avec le démarrage flexible et le provisionnement en file d'attente.
Activer les nœuds Confidential GKE Node dans des pools de nœuds Standard existants
Vous pouvez mettre à jour les pools de nœuds Standard existants pour utiliser le démarrage flexible si les nœuds Confidential GKE Node ne sont pas activés au niveau du cluster. Assurez-vous que le cluster et le pool de nœuds existant répondent aux exigences listées dans la section Disponibilité.
Pour mettre à jour vos pools de nœuds afin qu'ils utilisent la technologie Intel TDX Confidential Computing, consultez Mettre à jour un pool de nœuds existant.
Installer des pilotes de GPU compatibles avec les nœuds Confidential GKE
Une fois que vous avez activé les nœuds Confidential GKE dans votre pool de nœuds GPU, vous devez installer des pilotes compatibles avec l'exécution de charges de travail GPU sur ces nœuds.
Cette modification nécessite de recréer les nœuds, ce qui peut perturber vos charges de travail en cours d'exécution. Pour en savoir plus sur cette modification spécifique, recherchez la ligne correspondante dans le tableau Modifications manuelles qui recréent les nœuds à l'aide d'une stratégie de mise à niveau des nœuds sans respecter les règles de maintenance. Pour en savoir plus sur les mises à jour des nœuds, consultez Planifier les interruptions liées aux mises à jour des nœuds.
Pour obtenir des instructions, consultez l'onglet "COS" dans Installer manuellement des pilotes de GPU NVIDIA.
Résoudre les problèmes
Pour obtenir des informations de dépannage, consultez Résoudre les problèmes liés aux GPU dans GKE.
Étapes suivantes
- Vérifier que vos nœuds GPU utilisent des nœuds Confidential GKE Node
- Déployer une charge de travail sur vos nœuds GPU