Si le nombre de vos requêtes dépasse la capacité allouée pour les traiter, le code d'erreur 429
est renvoyé. Le tableau suivant affiche le message d'erreur généré par chaque type de framework de quota :
Framework de quota | Message |
---|---|
Paiement à l'usage | Resource exhausted, please try again later. |
Débit provisionné | Too many requests. Exceeded the Provisioned Throughput. |
Si vous disposez d'un abonnement de débit provisionné, vous pouvez réserver un certain débit pour des modèles d'IA générative spécifiques. Si vous ne disposez pas d'un abonnement de débit provisionné et que les ressources ne sont pas disponibles pour votre application, un code d'erreur 429
est renvoyé. Bien que vous ne disposiez pas de capacité réservée, vous pouvez relancer votre requête. Toutefois, la requête n'est pas comptabilisée dans votre taux d'erreur, comme indiqué dans votre contrat de niveau de service (SLA).
Pour les projets ayant acheté un débit provisionné, Vertex AI mesure le débit d'un projet et réserve la capacité de débit achetée pour l'utilisation réelle du projet.
Pour le débit provisionné standard, lorsque vous utilisez moins que le montant acheté, les erreurs qui pourraient être 429
sont renvoyées en tant qu'erreurs 5XX
et sont comptabilisées dans le taux d'erreur de l'accord de niveau de service. Pour le débit provisionné à zone unique, lorsque vous utilisez moins que la quantité achetée, les erreurs 429
liées à la capacité sont traitées comme des erreurs 5XX
, mais ne sont pas comptabilisées dans le taux d'erreur du SLA. Lorsque vous dépassez le montant acheté, les demandes supplémentaires sont traitées à la demande selon le paiement à l'usage.
Paiement à l'usage
Dans le framework de quota de paiement à l'usage, vous disposez des options suivantes pour résoudre les erreurs 429
:
- Dans la mesure du possible, utilisez le point de terminaison mondial plutôt qu'un point de terminaison régional.
- Implémentez une stratégie de nouvelle tentative à l'aide d'un intervalle exponentiel tronqué entre les tentatives.
- Si votre modèle utilise des quotas, vous pouvez envoyer une demande d'augmentation de quota (DAQ). Si votre modèle utilise un quota partagé dynamique, il peut être utile de lisser le trafic et de réduire les pics importants. Pour en savoir plus, consultez Quota partagé dynamique.
- Abonnez-vous au débit provisionné pour un niveau de service plus cohérent. Pour en savoir plus, consultez la section Débit provisionné.
Débit provisionné
Pour corriger l'erreur 429 générée par le débit provisionné, procédez comme suit :
- Utilisez l'exemple de comportement par défaut, qui ne définit pas d'en-tête dans les requêtes de prédiction. Tous les dépassements sont traités à la demande et facturés selon le paiement à l'usage.
- Augmentez le nombre d'unités de stockage Google dans votre abonnement de débit provisionné.
Étapes suivantes
- Pour en savoir plus sur le quota partagé dynamique, consultez Quota partagé dynamique.
- Pour en savoir plus sur le débit provisionné, consultez Débit provisionné.
- Pour en savoir plus sur les quotas et les limites de Vertex AI, consultez la section Quotas et limites de Vertex AI.
- Pour en savoir plus sur les quotas et les limites du système Google Cloud , consultez la documentation sur les quotas Cloud.
- Pour en savoir plus sur les erreurs d'API, consultez Erreurs d'API.