Cette page a été traduite par l'API Cloud Translation.

À propos de la consommation de GPU, de TPU et de H4D avec le mode de provisionnement à démarrage flexible

Cette page décrit le démarrage flexible dans Google Kubernetes Engine (GKE). Le démarrage flexible, optimisé par le planificateur de charges de travail dynamiques, offre une technique flexible et économique pour consommer des ressources de calcul spécialisées, comme des GPU ou des TPU, lorsque vous devez exécuter des charges de travail d'IA/de ML.

Le démarrage flexible vous permet de provisionner de façon dynamique des VM à démarrage flexible pour les GPU, les TPU et la série de machines H4D selon vos besoins, pendant sept jours maximum, sans être lié à une heure de début spécifique et sans avoir à gérer les réservations à long terme. Le démarrage flexible est donc adapté aux charges de travail de petite et moyenne taille avec des exigences de demande fluctuantes ou des durées courtes. Par exemple, le pré-entraînement de petits modèles, l'affinage de modèles ou les modèles de diffusion évolutifs.

Les informations sur cette page peuvent vous aider à effectuer les opérations suivantes :

Comprendre le fonctionnement du démarrage flexible dans GKE
Déterminez si le démarrage flexible convient à votre charge de travail.
Choisissez la configuration à démarrage flexible adaptée à votre charge de travail.
Gérez les interruptions lorsque vous utilisez des VM à démarrage flexible.
Comprendre les limites des VM à démarrage flexible dans GKE

Cette page s'adresse aux administrateurs et opérateurs de plate-forme et aux ingénieurs en machine learning (ML) qui souhaitent optimiser l'infrastructure d'accélérateurs pour leurs charges de travail.

Quand utiliser le démarrage flexible ?

Nous vous recommandons d'utiliser le démarrage flexible si vos charges de travail répondent à toutes les conditions suivantes :

Vos charges de travail nécessitent des ressources GPU.
Vos charges de travail nécessitent des ressources TPU qui s'exécutent dans des pools de nœuds de tranche de TPU à hôte unique.
Vos charges de travail nécessitent d'autres matériels spécialisés, tels que la série de machines H4D optimisée pour le HPC.
Vous disposez d'une capacité de GPU ou de TPU réservée limitée ou inexistante, et vous avez besoin d'un accès plus fiable à ces accélérateurs.
Votre charge de travail est flexible en termes d'horaires et votre cas d'utilisation peut tolérer d'attendre pour obtenir toute la capacité demandée, par exemple lorsque GKE alloue les ressources GPU en dehors des heures de pointe.

Tarification avec démarrage flexible

Le démarrage flexible est recommandé si votre charge de travail nécessite des ressources provisionnées de manière dynamique selon les besoins, pendant sept jours maximum avec des réservations à court terme, sans gestion complexe des quotas et avec un accès économique. Le démarrage flexible est optimisé par le planificateur de charges de travail dynamique et facturé selon la tarification du planificateur de charges de travail dynamique :

Remise (jusqu'à 53 %) sur les vCPU, les GPU et les TPU.
Vous payez à l'usage.

Conditions requises

Pour utiliser le démarrage flexible dans GKE, votre cluster doit répondre aux exigences suivantes :

Pour exécuter des GPU, utilisez GKE version 1.32.2-gke.1652000 ou ultérieure.
Pour exécuter des TPU, utilisez GKE version 1.33.0-gke.1712000 ou ultérieure. Le démarrage flexible est compatible avec les versions et zones suivantes :
- TPU Trillium (v6e) dans asia-northeast1-b, us-east5-a et us-east5-b.
- TPU v5e dans us-west4-a.
- TPU v5p dans us-east5-a.
Les TPU v3 et v4 ne sont pas compatibles.

Fonctionnement du mode de provisionnement Démarrage flexible

Avec le démarrage flexible, vous spécifiez la capacité de calcul requise (telle que les GPU ou les TPU) dans vos charges de travail. De plus, avec les clusters Standard, vous configurez le démarrage flexible sur des pools de nœuds spécifiques. GKE provisionne automatiquement les VM à démarrage flexible en suivant le processus suivant lorsque de la capacité devient disponible :

La charge de travail demande une capacité qui n'est pas immédiatement disponible. Cette requête peut être effectuée directement par la spécification de la charge de travail ou par le biais d'outils d'orchestration tels que les classes de calcul personnalisées ou Kueue.
GKE identifie que le démarrage flexible est activé sur votre nœud et que la charge de travail peut attendre pendant une durée indéterminée.
L'autoscaler de cluster accepte votre requête et calcule le nombre de nœuds nécessaires, en les traitant comme une seule unité.
L'autoscaler de cluster provisionne les nœuds nécessaires lorsqu'ils sont disponibles. Ces nœuds s'exécutent pendant sept jours maximum, ou moins si vous spécifiez une valeur dans le paramètre maxRunDurationSeconds. Si vous ne spécifiez pas de valeur pour le paramètre maxRunDurationSeconds, la valeur par défaut est de sept jours.
Une fois le temps d'exécution défini dans le paramètre maxRunDurationSeconds écoulé, les nœuds et les pods sont préemptés.
Si les pods terminent plus tôt et que les nœuds ne sont plus utilisés, l'autoscaler de cluster les supprime conformément au profil d'autoscaling.

GKE comptabilise la durée de chaque requête flex-start au niveau d'un nœud. Le temps disponible pour l'exécution des pods peut être légèrement inférieur en raison des retards au démarrage. Les nouvelles tentatives d'exécution d'un pod partagent cette durée, ce qui réduit le temps de disponibilité des pods après une nouvelle tentative. GKE comptabilise séparément la durée de chaque requête flex-start.

Configurations de démarrage flexible

GKE est compatible avec les configurations de démarrage flexible suivantes :

Démarrage flexible : GKE alloue les ressources nœud par nœud. Cette configuration ne nécessite que la définition de l'indicateur --flex-start lors de la création du nœud.
Démarrage flexible avec provisionnement en file d'attente : GKE alloue toutes les ressources demandées en même temps. Pour utiliser cette configuration, vous devez ajouter les options --flex-start et enable-queued-provisioning lorsque vous créez le pool de nœuds. GKE suit la procédure décrite dans Fonctionnement du mode de provisionnement à démarrage flexible dans ce document, mais applique également les conditions suivantes :
- Le planificateur attend que toutes les ressources demandées soient disponibles dans une seule zone.
- Tous les pods de la charge de travail peuvent s'exécuter ensemble sur des nœuds qui viennent d'être provisionnés.
- Les nœuds provisionnés ne sont pas réutilisés d'une exécution de charge de travail à une autre.
Remarque : Les clusters exécutant la version 1.29.1-gke.1708000 de GKE et les versions ultérieures optimisent la sélection des zones pour réduire les temps d'attente. Les versions antérieures peuvent entraîner des files d'attente plus longues.

Le tableau suivant compare les configurations de démarrage flexible :

	Démarrage Flex	Démarrage flexible avec provisionnement en file d'attente
Disponibilité	Aperçu	Disponibilité générale Remarque : Le flex-start est compatible avec les indicateurs `flex-start` et `enable-queued-provisioning` en version Preview.
Accélérateurs compatibles	GPU TPU dans les pools de nœuds de tranche TPU à hôte unique et les pools de nœuds de tranche TPU multi-hôtes	GPU TPU dans les pools de nœuds de tranche de TPU multi-hôtes
Taille de charge de travail recommandée	Petite à moyenne, ce qui signifie que la charge de travail peut s'exécuter sur un seul nœud. Par exemple, cette configuration est adaptée si vous exécutez de petites tâches d'entraînement, des inférences hors connexion ou des tâches par lot.	Moyenne à grande, ce qui signifie que la charge de travail peut s'exécuter sur plusieurs nœuds. Votre charge de travail nécessite plusieurs ressources et ne peut pas commencer à s'exécuter tant que tous les nœuds ne sont pas provisionnés et prêts en même temps. Par exemple, cette configuration fonctionne bien si vous exécutez des charges de travail d'entraînement de machine learning distribué.
Type de provisionnement	GKE provisionne un nœud à la fois lorsque des ressources sont disponibles.	GKE alloue toutes les ressources demandées simultanément.
Complexité de la configuration	Moins complexe. Cette configuration est semblable à celle des VM à la demande et Spot.	Plus complexe. Nous vous recommandons vivement d'utiliser un outil de gestion des quotas, tel que Kueue.
Prise en charge des classes de calcul personnalisées	Oui	Non
Recyclage des nœuds	Oui	Non
Prix	SKU de démarrage flexible	SKU de démarrage flexible
Quota	Quota de GPU préemptifs Quota de TPU préemptifs	Quota de GPU préemptifs Quota de TPU préemptifs
Stratégie de mise à niveau des nœuds	Mises à niveau de courte durée	Mises à niveau de courte durée
Option `gcloud container node pool create`	`--flex-start`	`--flex-start` `--enable-queued-provisioning`
Commencer	GPU : Diffuser des LLM sur GKE avec une stratégie de provisionnement de GPU économique et à haute disponibilité Exécuter une petite charge de travail par lot avec des GPU et le mode d'approvisionnement flex-start TPU : Exécuter une charge de travail par petits lots avec des TPU et le mode de provisionnement à démarrage flexible	Exécuter une charge de travail à grande échelle avec le démarrage flexible et le provisionnement en file d'attente

Optimiser la configuration du démarrage flexible

Pour créer une infrastructure d'IA/de ML robuste et économique, vous pouvez combiner les configurations à démarrage flexible avec les fonctionnalités GKE disponibles. Nous vous recommandons d'utiliser les classes de calcul pour définir une liste priorisée de configurations de nœuds en fonction des exigences de votre charge de travail. GKE sélectionnera la configuration la plus appropriée en fonction de la disponibilité et de la priorité que vous avez définie.

Gérer les perturbations dans les charges de travail qui utilisent le planificateur de charges de travail dynamique

Les charges de travail nécessitant la disponibilité de tous les nœuds ou de la plupart des nœuds d'un pool de nœuds sont sensibles aux évictions. De plus, les nœuds provisionnés à l'aide de requêtes du planificateur de charges de travail dynamique ne sont pas compatibles avec la réparation automatique. La réparation automatique supprime toutes les charges de travail d'un nœud, ce qui les empêche de s'exécuter.

Tous les nœuds utilisant des VM à démarrage flexible, le provisionnement en file d'attente ou les deux utilisent des mises à niveau de courte durée lorsque le plan de contrôle du cluster exécute la version minimale pour le démarrage flexible, à savoir 1.32.2-gke.1652000 ou une version ultérieure.

Les mises à niveau de courte durée permettent de mettre à jour un pool de nœuds standards ou un groupe de nœuds dans un cluster Autopilot sans perturber les nœuds en cours d'exécution. Les nouveaux nœuds sont créés avec la nouvelle configuration, ce qui remplace progressivement les nœuds existants avec l'ancienne configuration au fil du temps. Les versions antérieures de GKE, qui ne sont pas compatibles avec les mises à niveau à démarrage flexible ou de courte durée, nécessitent d'autres bonnes pratiques.

Bonnes pratiques pour minimiser les perturbations des charges de travail pour les nœuds utilisant des mises à niveau de courte durée

Les nœuds qui utilisent des VM à démarrage flexible et ceux qui utilisent le provisionnement en file d'attente sont automatiquement configurés pour utiliser des mises à niveau de courte durée lorsque le cluster exécute la version 1.32.2-gke.1652000 ou ultérieure.

Pour minimiser les perturbations des charges de travail s'exécutant sur des nœuds qui utilisent des mises à niveau de courte durée, effectuez les tâches suivantes :

Configurez des intervalles et des exclusions de maintenance pour définir à quel moment GKE doit effectuer des opérations de mise à jour, telles que les mises à niveau de nœuds, et à quel moment il ne doit pas le faire, tout en veillant à ce que GKE dispose toujours du temps nécessaire pour effectuer la maintenance automatique.
Désactivez la réparation automatique de nœuds.

Pour les nœuds des clusters exécutant des versions antérieures à 1.32.2-gke.1652000 et qui n'utilisent donc pas les mises à niveau de courte durée, consultez les conseils spécifiques à ces nœuds.

Bonnes pratiques pour minimiser les perturbations des charges de travail pour les nœuds de provisionnement en file d'attente sans mises à niveau de courte durée

Les nœuds utilisant le provisionnement en file d'attente sur un cluster exécutant une version GKE antérieure à 1.32.2-gke.1652000 n'utilisent pas les mises à niveau de courte durée. Les clusters mis à niveau vers la version 1.32.2-gke.1652000 ou ultérieure avec des nœuds de provisionnement en file d'attente existants sont automatiquement mis à jour pour utiliser des mises à niveau de courte durée.

Pour les nœuds exécutant ces versions antérieures, consultez les conseils suivants :

En fonction de l'inscription à un canal de publication de votre cluster, suivez les bonnes pratiques ci-dessous pour empêcher les mises à niveau automatiques des nœuds d'interrompre vos charges de travail :
- Si votre cluster est inscrit à un version disponible, utilisez des intervalles de maintenance et des exclusions pour empêcher GKE de mettre à niveau automatiquement vos nœuds pendant l'exécution de votre charge de travail.
- Si votre cluster n'est pas inscrit à un canal de publication, désactivez les mises à niveau automatiques des nœuds. Cependant, nous vous recommandons d'utiliser des canaux de publication, qui vous permettent d'utiliser des exclusions de maintenance avec des niveaux de précision plus élevés.
Désactivez la réparation automatique de nœuds.
Utilisez des intervalles de maintenance et des exclusions pour minimiser les perturbations des charges de travail en cours d'exécution, tout en veillant à ce que GKE dispose toujours du temps nécessaire pour effectuer la maintenance automatique. Veillez à planifier cette période pour un moment où aucune charge de travail n'est en cours d'exécution.
Pour vous assurer que votre pool de nœuds reste à jour, mettez-le à niveau manuellement lorsqu'aucune requête du planificateur de charges de travail dynamique n'est active et que le pool de nœuds est vide.

Éléments à prendre en compte lorsque votre cluster migre vers les mises à niveau de courte durée

GKE met à jour les nœuds existants à l'aide du provisionnement en file d'attente pour utiliser des mises à niveau de courte durée lorsque le cluster est mis à niveau vers la version 1.32.2-gke.1652000 ou ultérieure. GKE ne met pas à jour les autres paramètres, comme l'activation des mises à niveau automatiques des nœuds si vous les avez désactivées pour un pool de nœuds spécifique.

Nous vous recommandons d'envisager d'implémenter les bonnes pratiques suivantes maintenant que vos pools de nœuds utilisent des mises à niveau de courte durée :

Si vous avez désactivé les mises à niveau automatiques des nœuds à l'aide de l'option --no-enable-autoupgrade, cette migration ne les réactive pas pour le pool de nœuds. Nous vous recommandons d'activer les mises à niveau automatiques des nœuds, car les mises à niveau de courte durée ne perturbent pas les nœuds existants ni les charges de travail qui s'y exécutent. Pour en savoir plus, consultez Mises à niveau de courte durée.
Nous vous recommandons également d'enregistrer votre cluster dans un canal de publication, s'il ne l'est pas déjà, afin de pouvoir utiliser des niveaux d'exclusion de maintenance plus précis.

Recyclage des nœuds en mode "Démarrage flexible"

Pour faciliter la transition des nœuds et éviter les temps d'arrêt pour vos jobs en cours d'exécution, le démarrage flexible est compatible avec le recyclage des nœuds. Lorsqu'un nœud arrive à la fin de sa durée de vie, GKE le remplace automatiquement par un nouveau pour préserver vos charges de travail en cours d'exécution.

Pour utiliser le recyclage de nœuds, vous devez créer un profil de classe de calcul personnalisée et inclure le champ nodeRecycling dans la spécification flexStart avec le paramètre leadTimeSeconds.

Le paramètre leadTimeSeconds vous permet d'équilibrer la disponibilité des ressources et la rentabilité. Ce paramètre spécifie le délai (en secondes) avant la fin de la durée de sept jours d'un nœud avant le début du processus de provisionnement d'un nouveau nœud pour le remplacer. Un délai plus long augmente la probabilité que le nouveau nœud soit prêt avant la suppression de l'ancien, mais peut entraîner des coûts supplémentaires.

Le processus de recyclage des nœuds comprend les étapes suivantes :

Phase de recyclage : GKE valide qu'un nœud provisionné avec démarrage flexible comporte le champ nodeRecycling avec le paramètre leadTimeSeconds défini. Si c'est le cas, GKE lance la phase de recyclage des nœuds lorsque la date actuelle est supérieure ou égale à la différence entre les valeurs des champs suivants :
- creationTimestamp plus maxRunDurationSeconds
- leadTimeSeconds
L'indicateur creationTimeStamp inclut l'heure à laquelle le nœud a été créé. Le champ maxRunDurationSeconds peut être spécifié dans la classe de calcul personnalisée et est défini par défaut sur sept jours.
Création de nœud : le processus de création du nouveau nœud commence, en passant par les phases de mise en file d'attente et de provisionnement. La durée de la phase de mise en file d'attente peut varier de manière dynamique en fonction de la zone et de la capacité spécifique de l'accélérateur.
Marquez le nœud qui arrive à la fin de sa période de sept jours comme non programmable : une fois le nouveau nœud en cours d'exécution, l'ancien nœud est marqué comme non programmable. Cette action empêche la planification de nouveaux pods sur celui-ci. Les pods existants sur ce nœud continuent de s'exécuter.
Désactivation des nœuds : le nœud qui arrive à la fin de sa durée de sept jours est finalement désactivé après une période appropriée, ce qui permet de s'assurer que les charges de travail en cours d'exécution ont été migrées vers le nouveau nœud.

L'exemple suivant de configuration de classe de calcul inclut les champs leadTimeSeconds et maxRunDuration :

apiVersion: cloud.google.com/v1
kind: ComputeClass
metadata:
  name: dws-model-inference-class
spec:
  priorities:
    - machineType: g2-standard-24
      spot: true
    - machineType: g2-standard-24
      maxRunDurationSeconds: 72000
      flexStart:
        enabled: true
        nodeRecycling:
          leadTimeSeconds: 3600
  nodePoolAutoCreation:
    enabled: true

Pour en savoir plus sur l'utilisation du recyclage de nœuds, essayez le tutoriel Diffuser des LLM sur GKE avec une stratégie de provisionnement de GPU économique et à haute disponibilité.

Limites

L'anti-affinité entre les pods n'est pas prise en charge. L'autoscaler de cluster ne prend pas en compte les règles d'anti-affinité entre les pods lors du provisionnement des nœuds, ce qui peut entraîner des charges de travail non programmables. Cela peut se produire lorsque deux nœuds ou plus sont provisionnés dans le même pool de nœuds.
Les réservations ne sont pas compatibles avec le planificateur de charges de travail dynamique. Vous devez spécifier l'option --reservation-affinity=none lorsque vous créez le pool de nœuds. Le planificateur dynamique de charges de travail nécessite et n'accepte que les règles d'emplacement ANY pour l'autoscaling de cluster.
Une seule requête du planificateur de charges de travail dynamique peut créer jusqu'à 1 000 machines virtuelles (VM), ce qui correspond au nombre maximal de nœuds par zone pour un seul pool de nœuds.
GKE utilise le quota Compute Engine ACTIVE_RESIZE_REQUESTS pour contrôler le nombre de requêtes du planificateur de charges de travail dynamique en attente dans une file d'attente. Par défaut, ce quota est limité à 100 requêtes par projet Google Cloud. Si vous essayez de créer une requête Dynamic Workload Scheduler supérieure à ce quota, la nouvelle requête échoue.
Les pools de nœuds qui utilisent le planificateur de charges de travail dynamique sont sensibles aux perturbations, car les nœuds sont provisionnés ensemble. Pour en savoir plus, consultez Gérer les perturbations dans les charges de travail qui utilisent le planificateur de charges de travail dynamique.
Il est possible que la console Google Cloud liste des VM supplémentaires de courte durée. Ce comportement est intentionnel, car Compute Engine peut créer et supprimer rapidement des VM jusqu'à être en mesure de provisionner toutes les machines requises.
Les VM Spot ne sont pas compatibles.
Le programmateur de charge de travail dynamique n'est pas compatible avec les volumes éphémères. Vous devez utiliser des volumes persistants pour le stockage. Pour sélectionner le meilleur type de stockage utilisant des volumes persistants, consultez Présentation du stockage pour les clusters GKE.
Si la charge de travail utilise le recyclage de nœuds et qu'elle est déployée par un Job, configurez le Job avec le mode d'achèvement défini sur Indexed.