Dans un déploiement continu, un modèle déployé est remplacé par une nouvelle version du même modèle. Le nouveau modèle réutilise les ressources de calcul de l'ancien.
Dans la requête de déploiement progressif, la répartition du trafic et les valeurs dedicatedResources
sont les mêmes que pour le déploiement précédent. Une fois le déploiement continu terminé, la répartition du trafic est mise à jour pour indiquer que tout le trafic du DeployedModel
précédent a migré vers le nouveau déploiement.
Les autres champs configurables de DeployedModel
(tels que serviceAccount
, disableContainerLogging
et enableAccessLogging
) sont définis par défaut sur les mêmes valeurs que pour le DeployedModel
précédent. Toutefois, vous pouvez éventuellement spécifier de nouvelles valeurs pour ces champs.
Lorsqu'un modèle est déployé à l'aide d'un déploiement continu, un DeployedModel
est créé. La nouvelle DeployedModel
reçoit un ID différent de celui de la précédente. Il reçoit également une nouvelle valeur revisionNumber
dans le champ rolloutOptions
.
Si plusieurs déploiements continus ciblent les mêmes ressources de sauvegarde, le DeployedModel
avec le revisionNumber
le plus élevé est considéré comme l'état final prévu.
Au fur et à mesure du déploiement continu, toutes les répliques existantes de l'ancien DeployedModel
sont remplacées par des répliques du nouveau DeployedModel
. Cette opération est rapide. Les instances répliquées sont mises à jour dès que le déploiement dispose d'un nombre suffisant d'instances répliquées disponibles ou d'une capacité de pointe suffisante pour créer des instances répliquées supplémentaires.
De plus, à mesure que le déploiement continu progresse, le trafic de l'ancien DeployedModel
est progressivement migré vers le nouveau DeployedModel
. Le trafic est équilibré en fonction du nombre de répliques prêtes à diffuser de chaque DeployedModel
.
Si les nouvelles répliques du déploiement continu ne sont jamais prêtes, car leur route d'état renvoie systématiquement un code de réponse autre que 200, le trafic n'est pas envoyé à ces répliques non prêtes. Dans ce cas, le déploiement continu finit par échouer et les répliques sont rétablies dans le DeployedModel
précédent.
Démarrer un déploiement progressif
Pour démarrer un déploiement continu, incluez le champ rolloutOptions
dans la demande de déploiement du modèle, comme indiqué dans l'exemple suivant.
REST
Avant d'utiliser les données de requête, effectuez les remplacements suivants :
- LOCATION_ID : région dans laquelle vous utilisez Vertex AI.
- PROJECT_ID : ID de votre projet.
- ENDPOINT_ID : ID du point de terminaison.
- MODEL_ID : ID du modèle à déployer.
-
PREVIOUS_DEPLOYED_MODEL : ID
DeployedModel
d'un modèle sur le même point de terminaison. Cela spécifie leDeployedModel
dont les ressources de sauvegarde doivent être réutilisées. Vous pouvez appelerGetEndpoint
pour obtenir la liste des modèles déployés sur un point de terminaison, ainsi que leurs ID numériques. - MAX_UNAVAILABLE_REPLICAS : nombre de répliques de modèle pouvant être arrêtées lors du déploiement continu.
- MAX_SURGE_REPLICAS : nombre de répliques de modèle supplémentaires pouvant être créées lors du déploiement continu. Si cette valeur est définie sur zéro, seule la capacité existante est utilisée.
Méthode HTTP et URL :
POST https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel
Corps JSON de la requête :
{ "deployedModel": { "model": "projects/PROJECT_ID/locations/LOCATION_ID/models/MODEL_ID", "rolloutOptions": { "previousDeployedModel": "PREVIOUS_DEPLOYED_MODEL", "maxUnavailableReplicas": "MAX_UNAVAILABLE_REPLICAS", "maxSurgeReplicas": "MAX_SURGE_REPLICAS" } } }
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir un code d'état indiquant le succès de l'opération (2xx), ainsi qu'une réponse vide.
Si vous le souhaitez, vous pouvez remplacer maxSurgeReplicas
et/ou maxUnavailableReplicas
par des valeurs en pourcentage, comme indiqué dans l'exemple suivant.
REST
Avant d'utiliser les données de requête, effectuez les remplacements suivants :
- MAX_UNAVAILABLE_PERCENTAGE : pourcentage de répliques de modèle qui peuvent être arrêtées lors du déploiement continu.
- MAX_SURGE_PERCENTAGE : pourcentage de répliques de modèle supplémentaires pouvant être créées lors du déploiement continu. Si cette valeur est définie sur zéro, seule la capacité existante est utilisée.
Méthode HTTP et URL :
POST https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel
Corps JSON de la requête :
{ "deployedModel": { "model": "projects/PROJECT/locations/LOCATION_ID/models/MODEL_ID", "rolloutOptions": { "previousDeployedModel": "PREVIOUS_DEPLOYED_MODEL", "maxUnavailablePercentage": "MAX_UNAVAILABLE_PERCENTAGE", "maxSurgePercentage": "MAX_SURGE_PERCENTAGE" } } }
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir un code d'état indiquant le succès de l'opération (2xx), ainsi qu'une réponse vide.
Effectuer le rollback d'un déploiement continu
Pour annuler un déploiement progressif, lancez un nouveau déploiement progressif du modèle précédent, en utilisant l'ID DeployedModel
du déploiement progressif en cours comme previousDeployedModel
.
Pour obtenir l'ID DeployedModel
d'un déploiement en cours, définissez le paramètre allDeploymentStates=true
dans l'appel à GetEndpoint
, comme indiqué dans l'exemple suivant.
REST
Avant d'utiliser les données de requête, effectuez les remplacements suivants :
- LOCATION_ID : région dans laquelle vous utilisez Vertex AI.
- PROJECT_ID : ID de votre projet.
- ENDPOINT_ID : ID du point de terminaison.
Méthode HTTP et URL :
GET https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID?allDeploymentStates=true
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir une réponse JSON de ce type :
{ "name": "projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID", "displayName": "rolling-deployments-endpoint", "deployedModels": [ { "id": "2718281828459045", "model": "projects/PROJECT_ID/locations/LOCATION_ID/models/MODEL_ID@1", "displayName": "rd-test-model", "createTime": "2024-09-11T21:37:48.522692Z", "dedicatedResources": { "machineSpec": { "machineType": "e2-standard-2" }, "minReplicaCount": 5, "maxReplicaCount": 5 }, "modelVersionId": "1", "state": "BEING_DEPLOYED" } ], "etag": "AMEw9yMs3TdZMn8CUg-3DY3wS74bkIaTDQhqJ7-Ld_Zp7wgT8gsEfJlrCOyg67lr9dwn", "createTime": "2024-09-11T21:22:36.588538Z", "updateTime": "2024-09-11T21:27:28.563579Z", "dedicatedEndpointEnabled": true, "dedicatedEndpointDns": "ENDPOINT_ID.LOCATION_ID-PROJECT_ID.prediction.vertexai.goog" }
Contraintes et limites
- Le
DeployedModel
précédent doit se trouver sur le même point de terminaison que le nouveauDeployedModel
. - Vous ne pouvez pas créer plusieurs déploiements continus avec le même
previousDeployedModel
. - Vous ne pouvez pas créer de déploiements continus sur un
DeployedModel
qui n'est pas entièrement déployé. Exception : SipreviousDeployedModel
est lui-même un déploiement progressif en cours, un nouveau déploiement progressif peut être créé par-dessus. Cela permet de rétablir les déploiements qui commencent à échouer. - Les modèles précédents ne sont pas automatiquement annulés une fois le déploiement progressif terminé. Vous pouvez annuler manuellement le déploiement du modèle.
- Pour les déploiements progressifs sur des points de terminaison publics partagés, les valeurs
predictRoute
ethealthRoute
du nouveau modèle doivent être identiques à celles du modèle précédent. - Les déploiements continus ne sont pas compatibles avec le co-hébergement de modèles.
- Les déploiements continus ne peuvent pas être utilisés pour les modèles qui nécessitent des explications en ligne.