Quota partagé dynamique (DSQ)

Le quota partagé dynamique (QPD) a été introduit pour répondre à vos demandes de paiement à l'usage avec une plus grande flexibilité afin de s'adapter aux besoins de votre charge de travail sans avoir à gérer les quotas ni les demandes d'augmentation de quota (DAQ). Avec DSQ, il n'existe aucune limite de quota prédéfinie pour votre utilisation. Au lieu de cela, DSQ donne accès à un grand pool de ressources partagées, allouées de manière dynamique en fonction de la disponibilité des ressources en temps réel et de la demande en temps réel de tous les clients de ce modèle. Lorsque davantage de clients sont actifs, le débit de chaque client est plus faible. De même, si le nombre de clients est plus faible, chacun d'eux peut bénéficier d'un débit plus élevé.

Modèles compatibles

Les modèles Gemini suivants et leurs modèles affinés de manière supervisée sont compatibles avec le quota partagé dynamique :

Les anciens modèles Gemini suivants sont compatibles avec la quantification par seuil de décision :

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

Fonctionnement de DSQ

Le quota partagé dynamique (QPD) s'adapte à vos habitudes de trafic et à vos besoins, et minimise les frictions liées à l'utilisation. L'accès de votre projet aux ressources de DSQ n'est pas limité par un nombre arbitraire que nous avons défini. Elle est plutôt déterminée par la capacité globale du pool partagé et la demande collective actuelle de tous les clients. Ce modèle est conçu pour offrir une grande flexibilité, permettant à vos charges de travail d'éclater et de consommer plus de ressources lorsqu'elles sont disponibles. À l'inverse, il permet également à tous les clients du pool partagé d'avoir une chance d'accéder aux ressources lorsqu'elles sont disponibles, sans avoir à configurer de quota par client.

Pour garantir une expérience équitable et stable à tous les utilisateurs dans l'environnement de ressources partagées, le quota partagé dynamique gère intelligemment le traitement des requêtes, en particulier pendant les périodes de très forte demande provenant de sources isolées. Au lieu d'un plafond fixe, DSQ utilise une approche de priorisation dynamique. Cela signifie que, bien que le système soit conçu pour gérer les pics, les pics de trafic inhabituellement importants et rapides provenant d'une seule source peuvent être traités avec une priorité différente de celle du trafic plus régulier et stable. Cette gestion sophistiquée garantit que l'activité utilisateur étendue et les charges de travail régulières sont protégées contre les pics extrêmes et transitoires, ce qui favorise la stabilité globale du système et l'accès équitable.

Les requêtes Gemini avec des entrées multimodales sont soumises aux limites de débit système correspondantes, qui incluent image, audio, vidéo et document.

Pour vous assurer de la haute disponibilité de votre application et obtenir des niveaux de service prévisibles pour vos charges de travail de production, consultez Débit provisionné.

Comprendre les erreurs 429 d'épuisement des ressources dans DSQ

Nous comprenons que l'erreur 429 "Ressource épuisée" peut être frustrante et vous faire penser que vous avez atteint une limite de quota. Cependant, ce n'est pas le cas avec DSQ. Ces erreurs indiquent que le pool de ressources partagées global pour ce type spécifique (par exemple, un modèle particulier dans une région spécifique) à un moment donné connaît une demande extrêmement élevée de la part de nombreux utilisateurs simultanément. Imaginez que vous essayez de monter dans un train très fréquenté aux heures de pointe. Il n'y a pas de limite de billets pour vous, mais il est possible que le train soit complet pour le moment. Il s'agit d'un état temporaire de contention pour les ressources, et non d'une limite fixe imposée à votre projet.

La DSQ s'efforce constamment de gérer et de distribuer la capacité disponible de manière équitable et efficace. Lorsque vous recevez une telle erreur, cela signifie que la demande instantanée a dépassé l'offre disponible dans ce pool partagé. Contrairement à un quota strict qui vous bloquerait même si les ressources étaient inactives ailleurs, le DSQ vise à vous donner accès aux ressources lorsqu'elles sont disponibles. L'erreur d'épuisement reflète la charge actuelle de l'ensemble du système, et non un plafond pour votre compte.

Nous vous recommandons d'implémenter des mécanismes de nouvelle tentative, car la disponibilité dans cet environnement dynamique peut changer rapidement. Pour en savoir plus sur les tactiques de gestion des erreurs d'épuisement des ressources, consultez Guide de gestion des erreurs 429 ou Code d'erreur 429.

Étapes suivantes