À propos des demandes de réservations futures en mode agenda


Ce document présente les demandes de réservations futures en mode calendrier. Pour en savoir plus sur les différentes façons de réserver des ressources dans Compute Engine, consultez Choisir un type de réservation.

Pour obtenir la capacité nécessaire à la création d'instances de machines virtuelles (VM) auxquelles sont associés des GPU ou des TPU, utilisez les demandes de réservation future en mode calendrier. Si Google Cloudapprouve votre demande, Compute Engine provisionne les ressources réservées à la date et à l'heure de votre choix, et pour la durée de votre choix. Vous pouvez ensuite utiliser les ressources réservées pour créer des VM avec GPU ou des VM TPU afin d'exécuter les charges de travail suivantes :

  • Jobs de pré-entraînement de modèles

  • Jobs d'affinage de modèles

  • Charges de travail de simulation de calcul hautes performances (HPC)

  • Augmentations attendues à court terme des charges de travail d'inférence

Créer une demande en mode Agenda

Les sections suivantes expliquent comment afficher la disponibilité des ressources et quels détails spécifier lorsque vous créez une demande de réservation future en mode calendrier.

Afficher la disponibilité future des ressources

Avant de créer une requête de réservation future en mode calendrier, vous pouvez consulter la disponibilité future des ressources suivantes dans une région :

  • Pour les VM GPU : jusqu'à 60 jours à l'avance

  • Pour les TPU : jusqu'à 120 jours à l'avance

Compute Engine utilise le planificateur de charges de travail dynamique pour vous indiquer quand les ressources que vous avez demandées sont disponibles. Lorsque vous créez une demande, spécifiez le nombre, le type et la période de réservation des ressources que vous avez confirmées comme disponibles. Google Cloud est plus susceptible d'approuver votre demande si vous fournissez ces informations.

Définir les propriétés de la requête

Lorsque vous créez une requête de réservation future en mode calendrier, vous devez spécifier les propriétés suivantes :

  • Suppression automatique. Cette propriété détermine si Compute Engine supprime la réservation créée automatiquement (auto-created) pour votre requête à l'heure de fin, même si la réservation n'est pas entièrement utilisée. Pour créer une demande en mode Agenda, vous devez activer l'option de suppression automatique.

  • Type de consommation. Cette propriété définit la manière dont les VM utilisent la réservation créée automatiquement. Lorsque vous créez une requête en mode calendrier, vous devez spécifier que vous souhaitez créer des réservations spécifiquement ciblées. Ce paramètre signifie que seules les VM qui ciblent la réservation peuvent l'utiliser.

  • Type de déploiement : Cette propriété définit la colocation de vos ressources réservées. Lorsque vous créez une demande en mode Agenda, vous devez spécifier de déployer les ressources de manière dense. Dans ce type de déploiement, les ressources sont situées les unes à côté des autres pour minimiser la latence réseau.

  • Nom. Nom de votre demande, qui doit être unique dans votre projet.

  • Nombre de ressources Nombre de VM avec GPU ou de TPU à réserver à l'heure de début demandée.

  • État de la planification Cette propriété définit si vous envoyez immédiatement votre demande à Google Cloud pour examen ou si vous l'enregistrez en tant que brouillon et l'envoyez ultérieurement. Lorsque vous créez une demande en mode agenda, vous devez spécifier qu'elle doit être envoyée immédiatement pour examen.

  • Mode Réservation : Cette propriété définit la méthode de réservation des ressources, que vous devez définir sur CALENDAR pour une requête en mode Agenda.

  • Nom de la réservation : Nom de la réservation que Compute Engine crée automatiquement si Google Cloud approuve votre demande.

  • Type de partage : Cette propriété définit si d'autres projets de votre organisation peuvent utiliser la réservation créée automatiquement pour votre demande approuvée. Vous pouvez spécifier l'une des options suivantes :

    • Projet unique : Seul votre projet peut utiliser la capacité réservée.

    • Partagés Vous pouvez partager la capacité réservée avec un maximum de 100 autres projets de votre organisation. Si vous spécifiez cette option, vous devez indiquer les projets avec lesquels partager la réservation créée automatiquement. Pour en savoir plus, consultez les bonnes pratiques pour les réservations partagées.

  • Période de réservation : Date et heure auxquelles Compute Engine provisionne la capacité demandée et à partir desquelles vous pouvez l'utiliser. La période de réservation comprend les éléments suivants :

    • Heure de début Lorsque vous souhaitez commencer à utiliser votre capacité réservée. En fonction des ressources que vous réservez, l'heure de début doit être au moins l'une des valeurs suivantes à partir du moment où vous créez et envoyez une demande :

      • Pour les VM GPU : 87 heures (trois jours et 15 heures)

      • 24 heures pour les TPU

    • Heure de fin : Lorsque la capacité que vous avez demandée n'est plus réservée pour vous. À ce moment-là, Compute Engine supprime la réservation créée automatiquement et arrête ou supprime les VM qui l'utilisent en fonction de l'action d'arrêt que vous avez spécifiée pour les VM.

  • Propriétés des ressources Exigences matérielles des VM ou TPU GPU que vous souhaitez réserver. Les VM ne peuvent utiliser une réservation que si leurs propriétés correspondent à celles de la réservation. Pour en savoir plus, consultez les exigences pour consommer des réservations.

  • Type de charge de travail. Si vous réservez des TPU v5e, vous devez spécifier comment réserver de la capacité en fonction de votre type de charge de travail :

    • Par lot : Pour les charges de travail qui gèrent de grandes quantités de données en une ou plusieurs opérations, comme les charges de travail d'entraînement du machine learning (ML).

    • Actif : Pour les charges de travail qui gèrent les requêtes simultanées et nécessitent une latence réseau minimale, comme les charges de travail d'inférence ML.

  • Zone : Zone dans laquelle vous souhaitez réserver de la capacité.

Processus de demande d'examen

Pour réserver de la capacité à l'aide d'une requête de réservation future en mode calendrier, vous devez créer la requête et l'envoyer à Google Cloud pour examen. Une fois que vous avez créé et envoyé une demande, Google Cloud l'examine en une minute, puis l'une des situations suivantes se produit :

  • Google Cloud approuve votre demande : Compute Engine réserve les ressources demandées et, dans la minute qui suit l'approbation, crée automatiquement une réservation vide. À l'heure de début de la demande, Compute Engine provisionne la capacité demandée en augmentant le nombre de TPU dans la réservation.

  • Une erreur s'est produite. La requête échoue, car la zone de la requête manque de ressources suffisantes. Nous vous recommandons de vérifier à nouveau la disponibilité des ressources futures, puis de créer et d'envoyer une nouvelle demande d'examen.

Cycle de vie des requêtes

Le schéma suivant montre les différents états dans lesquels Compute Engine peut définir une requête de réservation future en mode calendrier :

Organigramme montrant les différents états qu'une demande de réservation future en mode Agenda peut traverser.

Les états et le flux d'événements illustrés dans le schéma précédent sont les suivants :

  • PENDING_APPROVAL : vous avez créé et envoyé une demande d'examen. En l'espace d'une minute, Google Cloud approuve la demande.

  • APPROVED : Google Cloud a approuvé votre demande. Ensuite, en l'espace d'une minute, Compute Engine crée automatiquement une réservation vide et définit l'état de la requête sur PROCURING.

  • PROCURING : Compute Engine planifie le provisionnement de vos ressources réservées. Avant l'heure de début de la demande, son état passe à PROVISIONING.

  • PROVISIONING : Compute Engine provisionne vos ressources réservées en augmentant le nombre de TPU réservés dans la réservation créée automatiquement. À l'heure de début de la demande, l'état de la demande passe à FULFILLED.

  • FULFILLED : Compute Engine a provisionné vos ressources réservées, et vous êtes facturé pour celles-ci. Vous pouvez utiliser la réservation créée automatiquement en créant des VM jusqu'à l'heure de fin de la requête.

À l'heure de fin de la requête, Compute Engine supprime la requête et la réservation créée automatiquement. Il arrête ou supprime également toutes les VM qui consomment la réservation en fonction de l'action d'arrêt que vous avez spécifiée pour les VM.

Utiliser la capacité provisionnée

Une fois que Google Cloud a approuvé une demande de réservation future en mode calendrier, Compute Engine crée automatiquement une réservation présentant les caractéristiques suivantes :

  • La réservation créée automatiquement ne comporte aucune VM ni TPU réservés. Vous ne pouvez pas encore l'utiliser.

  • La réservation créée automatiquement hérite des propriétés de VM ou de TPU spécifiées dans votre requête.

À l'heure de début de la demande, Compute Engine provisionne la capacité demandée en augmentant le nombre de VM GPU ou de TPU dans la réservation créée automatiquement. Vous pouvez ensuite utiliser la réservation en créant des VM GPU ou des VM TPU qui remplissent toutes les conditions suivantes :

Vous pouvez créer des VM jusqu'à ce que la réservation soit entièrement utilisée ou jusqu'à l'heure de fin de la demande. À l'heure de fin de la requête, Compute Engine supprime la réservation créée automatiquement et arrête ou supprime toutes les VM qui l'utilisent.

Quota

Les demandes de réservations futures en mode calendrier doivent utiliser le modèle de provisionnement lié à la réservation. Ce modèle ne nécessite pas de quota Compute Engine pour réserver des ressources. Toutefois, avant de créer une demande, vérifiez que vous disposez d'un quota suffisant pour toutes les ressources qui ne font pas partie d'une réservation lorsque vous créez des VM, comme les disques ou les adresses IP.

Tarifs

Lorsque vous créez une requête de réservation future en mode calendrier, aucun frais ne vous est facturé. En revanche, des frais vous sont facturés dans les cas suivants :

  • Compute Engine provisionne la capacité demandée. Lorsqu'une requête atteint l'état FULFILLED, les ressources provisionnées vous sont facturées conformément à la tarification DWS. Ce modèle de tarification propose des processeurs virtuels, des GPU et des TPU à prix réduit.

  • Vous utilisez des ressources non couvertes par la réservation. Lorsque vous créez des VM qui consomment une réservation créée automatiquement, les ressources consommées ne vous sont pas facturées à nouveau. Vous n'êtes facturé que pour les ressources qui ne font pas partie de la réservation, comme les disques ou les adresses IP.

Les frais cessent de s'appliquer à l'heure de fin de la demande. À ce moment-là, Compute Engine supprime la réservation créée automatiquement, et arrête ou supprime toutes les VM qui consomment la réservation.

Limites

Les sections suivantes expliquent les limites des demandes de réservation future en mode agenda.

Limites pour toutes les demandes

Toutes les demandes de réservations futures en mode Agenda sont soumises aux limites suivantes :

  • Vous pouvez réserver des ressources pour une période comprise entre 1 et 90 jours.

  • Une fois que vous avez créé et envoyé une demande, vous ne pouvez plus l'annuler, la supprimer ni la modifier.

Limites applicables aux requêtes de VM GPU

Vous ne pouvez réserver des VM GPU que comme suit :

  • Vous pouvez réserver entre 1 et 80 VM avec GPU par requête.

  • Vous pouvez réserver les séries de machines suivantes :

  • Vous ne pouvez réserver des VM avec GPU que dans des zones spécifiques.

Limites applicables aux demandes de TPU

Vous ne pouvez réserver des TPU que comme suit :

  • Vous pouvez réserver 1, 4, 8, 16, 32, 64, 128, 256, 512 ou 1 024 puces TPU par demande.

  • Vous pouvez réserver les versions de TPU suivantes :

  • Vous ne pouvez réserver que 1, 4 ou 8 puces TPU v5e pour les types de charges de travail de diffusion (SERVING).

  • Vous ne pouvez réserver des TPU que dans les zones suivantes :

    • Pour les TPU v6e :

      • asia-northeast1-b

      • us-east5-a

      • us-east5-b

    • Pour les TPU v5p :

      • us-east5-a
    • Pour les TPU v5e :

      • Pour les types de charges de travail par lot (BATCH) : us-west4-b

      • Pour les types de charges de travail de diffusion (SERVING) : us-central1-a

Limites pour toutes les réservations créées automatiquement

Une réservation créée automatiquement pour une requête présente les limites suivantes :

  • Vous ne pouvez modifier la réservation que comme suit :

    • Pour autoriser ou interdire aux jobs Vertex AI de l'utiliser.

    • après l'heure de début de la réservation.

  • Vous ne pouvez pas appliquer de remises sur engagement d'utilisation ni de remises automatiques proportionnelles à une utilisation soutenue à la réservation.

  • Vous ne pouvez pas supprimer la réservation. Compute Engine la supprime à l'heure de fin de la réservation.

Étapes suivantes