Cette page a été traduite par l'API Cloud Translation.

Utiliser des réservations avec l'inférence en ligne

Ce document explique comment utiliser les réservations Compute Engine pour vous assurer que vos jobs d'inférence en ligne disposent des ressources de machines virtuelles (VM) nécessaires à leur exécution.

Les réservations sont une fonctionnalité de Compute Engine. Elles vous permettent de vous assurer que vous disposez des ressources nécessaires pour créer des VM avec le même matériel (mémoire et processeurs virtuels) et les mêmes ressources facultatives (processeurs, GPU, TPU et disques SSD locaux) chaque fois que vous en avez besoin.

Lorsque vous créez une réservation, Compute Engine vérifie que la capacité demandée est disponible dans la zone spécifiée. Si c'est le cas, Compute Engine réserve les ressources et crée la réservation. Les événements suivants se produisent alors :

Vous pouvez consommer immédiatement les ressources réservées. Elles restent disponibles jusqu'à ce que vous supprimiez la réservation.
Les ressources réservées vous sont facturées au même tarif à la demande que les VM en cours d'exécution, y compris les remises applicables, jusqu'à ce que la réservation soit supprimée. Une VM qui consomme une réservation n'entraîne pas de frais distincts. Vous n'êtes facturé que pour les ressources en dehors de la réservation, telles que les disques ou les adresses IP. Pour en savoir plus, consultez les tarifs des réservations.

Limites et exigences

Lorsque vous utilisez des réservations Compute Engine avec Vertex AI, tenez compte des limites et des exigences suivantes :

Vertex AI ne peut utiliser les réservations que pour les CPU, les VM GPU ou les TPU (preview).
Vertex AI ne peut pas utiliser les réservations de VM auxquelles des disques SSD locaux sont associés manuellement.
L'utilisation de réservations Compute Engine avec Vertex AI n'est possible que pour l'entraînement et l'inférence personnalisés, ainsi que pour Vertex AI Workbench (preview).
Pour utiliser une réservation, les propriétés de VM de la réservation doivent correspondre exactement à celles de votre charge de travail Vertex AI. Par exemple, si une réservation spécifie un type de machine a2-ultragpu-8g, la charge de travail Vertex AI ne peut utiliser la réservation que si elle utilise également un type de machine a2-ultragpu-8g. Consultez les conditions requises.
Pour utiliser une réservation partagée de VM GPU ou de TPU, vous devez l'utiliser avec son projet propriétaire ou un projet client avec lequel la réservation est partagée. Consultez la section Fonctionnement des réservations partagées.
- SPECIFIC_RESERVATION : vous devez spécifier au moins une VM supplémentaire. Nous vous recommandons d'en ajouter 10 % (mais au moins une). Les modèles déployés à l'aide de SPECIFIC_RESERVATION sont garantis de ne consommer que des VM issues de la réservation. Vertex AI ne peut pas effectuer de mises à jour s'il n'y a pas de VM supplémentaire.
- ANY :
Pour utiliser une réservation SPECIFIC_RESERVATION, accordez le rôle IAM Lecteur Compute au compte de service Vertex AI dans le projet qui possède les réservations (service-${PROJECT_NUMBER}@gcp-sa-aiplatform.iam.gserviceaccount.com, où PROJECT_NUMBER est le numéro du projet qui utilise la réservation).

Facturation

Lorsque vous utilisez des réservations Compute Engine, vous êtes facturé pour les éléments suivants :

Tarifs Compute Engine pour les ressources Compute Engine, y compris les remises sur engagement d'utilisation applicables. Consultez la page Tarifs de Compute Engine.
Des frais de gestion de l'inférence en ligne Vertex AI s'ajoutent à votre utilisation de l'infrastructure. Consultez la page Tarifs des prédictions.

Remarque : Lorsque vous consommez des ressources à partir d'une réservation ou d'une capacité spot, la facturation est répartie sur deux SKU : le SKU Compute Engine avec le libellé goog-vertex-ai-product:vertex-ai-online-prediction et le SKU des frais de gestion Vertex AI. Cela vous permet d'utiliser vos remises pour utilisation engagée (CUD) dans Vertex AI.

Avant de commencer

Consultez les exigences et restrictions applicables aux réservations.
Consultez les exigences relatives aux quotas et les restrictions applicables aux réservations partagées.

Autoriser l'utilisation d'une réservation

Avant de consommer une réservation de CPU, de VM avec GPU ou de TPU, vous devez définir sa règle de partage pour autoriser Vertex AI à consommer la réservation. Pour ce faire, utilisez l'une des méthodes suivantes :

Autoriser la consommation lors de la création d'une réservation
Autoriser la consommation dans une réservation existante

Autoriser la consommation lors de la création d'une réservation

Lorsque vous créez une réservation à projet unique ou partagée de VM avec GPU, vous pouvez autoriser Vertex AI à utiliser la réservation comme suit :

Si vous utilisez la console Google Cloud , sélectionnez Partager la réservation dans la section Services Google Cloud.
Si vous utilisez Google Cloud CLI, incluez l'option --reservation-sharing-policy définie sur ALLOW_ALL.
Si vous utilisez l'API REST, incluez le champ serviceShareType défini sur ALLOW_ALL dans le corps de la requête.

Autoriser la consommation dans une réservation existante

Vous ne pouvez modifier une réservation créée automatiquement de VM avec GPU ou de TPU pour une réservation future qu'après l'heure de début de la réservation.

Pour autoriser Vertex AI à utiliser une réservation existante, utilisez l'une des méthodes suivantes :

Vérifier qu'une réservation est utilisée

Pour vérifier que la réservation est utilisée, consultez la section Vérifier la consommation des réservations dans la documentation Compute Engine.

Obtenir des inférences en ligne à l'aide d'une réservation

Pour créer un déploiement de modèle qui consomme une réservation Compute Engine de VM GPU, utilisez l'API REST ou le SDK Vertex AI pour Python.

REST

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

LOCATION_ID : région dans laquelle vous utilisez Vertex AI.
PROJECT_ID : projet dans lequel la réservation a été créée. Pour utiliser une réservation partagée provenant d'un autre projet, vous devez partager la réservation avec ce projet. Pour en savoir plus, consultez Modifier les projets clients dans une réservation partagée.
ENDPOINT_ID : ID du point de terminaison.
MODEL_ID : ID du modèle à déployer.
DEPLOYED_MODEL_NAME : nom de l'élément DeployedModel. Vous pouvez également utiliser le nom à afficher du Model pour le DeployedModel.
MACHINE_TYPE : type de machine à utiliser pour chaque nœud de ce déploiement. Le paramètre par défaut est n1-standard-2. Pour en savoir plus sur les types de machines compatibles, consultez Configurer des ressources de calcul pour la prédiction.
ACCELERATOR_TYPE : type d'accélérateur à associer à la machine. Pour en savoir plus sur le type de GPU compatible avec chaque type de machine, consultez GPU pour les charges de travail de calcul.
ACCELERATOR_COUNT : nombre d'accélérateurs à associer à la machine.
RESERVATION_AFFINITY_TYPE : La valeur doit être ANY, SPECIFIC_RESERVATION ou NONE.
- ANY signifie que les VM de votre customJob peuvent automatiquement utiliser toute réservation avec des propriétés correspondantes.
- SPECIFIC_RESERVATION signifie que les VM de votre customJob ne peuvent consommer qu'une réservation que les VM ciblent spécifiquement par son nom.
- NONE signifie que les VM de votre customJob ne peuvent utiliser aucune réservation. Spécifier NONE a le même effet que d'omettre une spécification d'affinité de réservation.
ZONE : zone dans laquelle la réservation a été créée.
RESERVATION_NAME : nom de votre réservation.
MIN_REPLICA_COUNT : nombre minimal de nœuds pour ce déploiement. Le nombre de nœuds peut être augmenté ou réduit selon les besoins de la charge d'inférence, dans la limite du nombre maximal de nœuds et sans jamais être inférieur à ce nombre minimal de nœuds. Cette valeur doit être supérieure ou égale à 1.
MAX_REPLICA_COUNT : nombre maximal de nœuds pour ce déploiement. Le nombre de nœuds peut être augmenté ou réduit selon les besoins de la charge d'inférence, dans la limite de ce nombre de nœuds et jamais moins que le nombre minimal de nœuds.
TRAFFIC_SPLIT_THIS_MODEL : pourcentage du trafic de prédiction dirigé vers ce point de terminaison à acheminer vers le modèle déployé avec cette opération. La valeur par défaut est 100. La somme des pourcentages de trafic doit être égale à 100. En savoir plus sur la répartition du trafic
DEPLOYED_MODEL_ID_N : facultatif. Si d'autres modèles sont déployés sur ce point de terminaison, vous devez modifier les pourcentages de répartition du trafic pour que le total des pourcentages soit égal à 100.
TRAFFIC_SPLIT_MODEL_N : valeur en pourcentage de la répartition du trafic pour la clé de l'ID de modèle déployé.
PROJECT_NUMBER : numéro de projet généré automatiquement pour votre projet.

Méthode HTTP et URL :

POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel

Corps JSON de la requête :

{
  "deployedModel": {
    "model": "projects/PROJECT/locations/LOCATION_ID/models/MODEL_ID",
    "displayName": "DEPLOYED_MODEL_NAME",
    "dedicatedResources": {
      "machineSpec": {
        "machineType": "MACHINE_TYPE",
        "acceleratorType": "ACCELERATOR_TYPE",
        "acceleratorCount": ACCELERATOR_COUNT,
        "reservationAffinity": {
          "reservationAffinityType": "RESERVATION_AFFINITY_TYPE",
          "key": "compute.googleapis.com/reservation-name",
          "values": [
            "projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME"
          ]
        }
      },
      "minReplicaCount": MIN_REPLICA_COUNT,
      "maxReplicaCount": MAX_REPLICA_COUNT
    },
  },
  "trafficSplit": {
    "0": TRAFFIC_SPLIT_THIS_MODEL,
    "DEPLOYED_MODEL_ID_1": TRAFFIC_SPLIT_MODEL_1,
    "DEPLOYED_MODEL_ID_2": TRAFFIC_SPLIT_MODEL_2
  },
}

Pour envoyer votre requête, développez l'une des options suivantes :

curl (Linux, macOS ou Cloud Shell)

Remarque : La commande suivante suppose que vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel"

PowerShell (Windows)

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON de ce type :

{
  "name": "projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-10-19T17:53:16.502088Z",
      "updateTime": "2020-10-19T17:53:16.502088Z"
    }
  }
}

Python

Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API SDK Vertex AI pour Python.

Avant d'exécuter l'un des scripts suivants, effectuez les remplacements suivants :

DEPLOYED_NAME : nom du modèle déployé.
TRAFFIC_SPLIT : valeur en pourcentage de la répartition du trafic pour la clé de l'ID de modèle déployé.
MACHINE_TYPE : machine utilisée pour chaque nœud de ce déploiement. Le paramètre par défaut est n1-standard-2. En savoir plus sur les types de machines
ACCELERATOR_TYPE : type d'accélérateur à associer à la machine. Pour en savoir plus sur le type de GPU compatible avec chaque type de machine, consultez GPU pour les charges de travail de calcul.
ACCELERATOR_COUNT : nombre d'accélérateurs à associer à la machine.
PROJECT_ID : projet dans lequel la réservation a été créée. Pour utiliser une réservation partagée provenant d'un autre projet, vous devez partager la réservation avec ce projet. Pour en savoir plus, consultez Modifier les projets clients dans une réservation partagée.
ZONE : zone où se trouve la réservation.
RESERVATION_NAME : nom de votre réservation.
MIN_REPLICA_COUNT : nombre minimal de nœuds pour ce déploiement. Le nombre de nœuds peut être augmenté ou réduit selon les besoins de la charge d'inférence, dans la limite du nombre maximal de nœuds et sans jamais être inférieur à ce nombre minimal de nœuds. Cette valeur doit être supérieure ou égale à 1.
MAX_REPLICA_COUNT : nombre maximal de nœuds pour ce déploiement. Le nombre de nœuds peut être augmenté ou réduit selon les besoins de la charge d'inférence, dans la limite de ce nombre de nœuds et jamais moins que le nombre minimal de nœuds.

Selon le type de réservation que vous souhaitez utiliser, procédez de l'une des manières suivantes :

Pour consommer une réservation spécifique :

endpoint5.deploy(
    model = model,
    deployed_model_display_name=DEPLOYED_NAME,
    traffic_split=TRAFFIC_SPLIT,
    machine_type="MACHINE_TYPE",
    accelerator_type="ACCELERATOR_TYPE",
    accelerator_count=ACCELERATOR_COUNT,
    reservation_affinity_type="SPECIFIC_RESERVATION",
    reservation_affinity_key="compute.googleapis.com/reservation-name",
    reservation_affinity_values=["projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME"],
    min_replica_count=MIN_REPLICA_COUNT,
    max_replica_count=MAX_REPLICA_COUNT,
    sync=True
)

Pour utiliser une réservation consommée automatiquement :

endpoint5.deploy(
    model = model,
    deployed_model_display_name=DEPLOYED_NAME,
    traffic_split=TRAFFIC_SPLIT,
    machine_type="MACHINE_TYPE",
    accelerator_type="ACCELERATOR_TYPE",
    accelerator_count=ACCELERATOR_COUNT,
    reservation_affinity_type="ANY_RESERVATION",
    min_replica_count=MIN_REPLICA_COUNT,
    max_replica_count=MAX_REPLICA_COUNT,
    sync=True
)

Étapes suivantes

Découvrir les réservations de ressources zonales Compute Engine.
Découvrez comment utiliser des réservations avec l'inférence par lot Vertex AI.
Découvrez comment utiliser des réservations avec Vertex AI Training.
Découvrez comment afficher les réservations.
Découvrez comment surveiller la consommation des réservations.