Quotas et limites système de l'IA générative sur Vertex AI

Cette page présente deux façons de consommer les services d'IA générative, fournit une liste de quotas par région et par modèle, et vous explique comment afficher et modifier vos quotas dans la console Google Cloud .

Présentation

Il existe deux façons de consommer les services d'IA générative. Vous pouvez choisir le paiement à l'usage ou payer à l'avance en utilisant le débit provisionné.

Si vous utilisez le paiement à l'utilisation, votre utilisation des fonctionnalités d'IA générative est soumise à l'un des systèmes de quotas suivants, en fonction du modèle que vous utilisez :

  • Les modèles antérieurs à Gemini 2.0 utilisent un système de quotas standard pour chaque modèle d'IA générative afin de garantir l'équité et de réduire les pics d'utilisation et de disponibilité des ressources. Les quotas s'appliquent aux requêtes d'IA générative sur Vertex AI pour un projet Google Cloud et une région compatibles donnés.
  • Les modèles plus récents utilisent le quota partagé dynamique (QPD), qui distribue dynamiquement la capacité de paiement à l'utilisation disponible entre tous les clients pour un modèle et une région spécifiques. Il n'est donc plus nécessaire de définir des quotas ni d'envoyer des demandes d'augmentation de quota. Aucun quota n'est associé à DSQ.

Pour vous assurer de la haute disponibilité de votre application et obtenir des niveaux de service prévisibles pour vos charges de travail de production, consultez Débit provisionné.

Système de quotas par modèle

Les modèles suivants sont compatibles avec le quota partagé dynamique :

Les anciens modèles Gemini suivants sont compatibles avec la quantification par seuil de décision :

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

Les modèles Gemini antérieurs et autres que Gemini utilisent le système de quota standard. Pour en savoir plus, consultez Quotas et limites de Vertex AI.

Les modèles tiers MaaS utilisent des quotas standards. Pour en savoir plus, consultez la page de référence de chaque modèle : Utiliser des modèles partenaires.

Quotas de modèles réglés

L'inférence du modèle réglé partage le même quota que le modèle de base. Il n'existe pas de quota distinct pour l'inférence de modèles ajustés.

Limites d'embedding textuel

Chaque requête peut comporter jusqu'à 250 textes d'entrée (générant un embedding par texte d'entrée) et 20 000 jetons par requête. Seuls les 2 048 premiers jetons de chaque texte d'entrée sont utilisés pour calculer les embeddings. Pour gemini-embedding-001, le quota est indiqué sous le nom gemini-embedding.

Jetons d'entrée de contenu à intégrer par minute et par modèle de base

Contrairement aux modèles d'embedding précédents, qui étaient principalement limités par des quotas de requêtes par minute, le quota du modèle Gemini Embedding limite le nombre de jetons pouvant être envoyés par minute et par projet.

Quota Valeur
Jetons d'entrée de contenu à intégrer par minute 5 000 000

Limites de Vertex AI Agent Engine

Les limites suivantes s'appliquent à Vertex AI Agent Engine pour un projet donné dans chaque région :
Description Limite
Créer, supprimer ou mettre à jour Vertex AI Agent Engine par minute 10
Créer, supprimer ou mettre à jour des sessions Vertex AI Agent Engine par minute 100
Query ou StreamQuery Vertex AI Agent Engine par minute 90
Ajouter un événement aux sessions Vertex AI Agent Engine par minute 300
Nombre maximal de ressources Vertex AI Agent Engine 100
Créer, supprimer ou mettre à jour des ressources de mémoire Vertex AI Agent Engine par minute 100
Obtenir, lister ou récupérer des données depuis la banque de mémoire Vertex AI Agent Engine par minute 300
Requêtes d'exécution (exécution de code) par minute dans l'environnement de bac à sable 1000
Entités d'environnement de bac à sable (exécution de code) par région 1000
Requêtes de post d'agent A2A telles que sendMessage et cancelTask par minute 60
Requêtes GET d'agent A2A telles que getTask et getCard par minute 600
Connexions bidirectionnelles simultanées en direct à l'aide de l'API BidiStreamQuery par minute 10

Prédiction par lot

Les quotas et les limites des jobs d'inférence par lot sont les mêmes dans toutes les régions.

Limites de jobs d'inférence par lot simultanés pour les modèles Gemini

Il n'existe aucune limite de quota prédéfinie pour l'inférence par lot pour les modèles Gemini. Au lieu de cela, le service de traitement par lot donne accès à un grand pool de ressources partagées, allouées de manière dynamique en fonction de la disponibilité en temps réel du modèle et de la demande de ce modèle par tous les clients. Lorsque davantage de clients sont actifs et que la capacité du modèle est saturée, vos requêtes par lot peuvent être mises en file d'attente en raison de la capacité.

Quotas de jobs d'inférence par lot simultanés pour les modèles non Gemini

Le tableau suivant répertorie les quotas pour le nombre de jobs d'inférence par lot simultanés, qui ne s'appliquent pas aux modèles Gemini :
Quota Valeur
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
Si le nombre de tâches envoyées dépasse le quota alloué, elles sont placées dans une file d'attente et traitées lorsque la capacité de quota devient disponible.

Afficher et modifier les quotas dans la console Google Cloud

Pour afficher et modifier les quotas dans la console Google Cloud , procédez comme suit :
  1. Accédez à la page Quotas et limites du système.
  2. Accéder à la page "Quotas et limites du système"

  3. Pour ajuster le quota, copiez et collez la propriété aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs dans le filtre. Appuyez sur Entrée.
  4. Cliquez sur les trois points à la fin de la ligne, puis sélectionnez Modifier le quota.
  5. Saisissez une nouvelle valeur de quota dans le volet, puis cliquez sur Envoyer la demande.

Moteur Vertex AI RAG

Pour que chaque service puisse effectuer une génération augmentée par récupération (RAG) à l'aide du moteur RAG, les quotas suivants s'appliquent. Ils sont mesurés en requêtes par minute (RPM).
Service Quota Métrique
API de gestion des données du moteur RAG 60 tr/min VertexRagDataService requests per minute per region
RetrievalContexts API 600 tr/min VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1 500 RPM Online prediction requests per base model per minute per region per base_model

Un autre filtre que vous pouvez spécifier est base_model: textembedding-gecko
Les limites suivantes s'appliquent :
Service Limite Métrique
Requêtes ImportRagFiles simultanées 3 RPM VertexRagService concurrent import requests per region
Nombre maximal de fichiers par requête ImportRagFiles 10 000 VertexRagService import rag files requests per region

Pour en savoir plus sur les limites de débit et les quotas, consultez Limites de débit de l'IA générative sur Vertex AI.

Gen AI Evaluation Service

Gen AI Evaluation Service utilise gemini-2.0-flash comme modèle d'évaluation par défaut pour les métriques basées sur un modèle. Une seule requête d'évaluation pour une métrique basée sur un modèle peut entraîner plusieurs requêtes sous-jacentes adressées à Gen AI Evaluation Service. Le quota de chaque modèle est calculé par projet, ce qui signifie que toutes les requêtes dirigées vers gemini-2.0-flash pour l'inférence de modèle et l'évaluation basée sur les modèles contribuent au quota. Les quotas pour le service d'évaluation de l'IA générative et le modèle d'évaluation sous-jacent sont indiqués dans le tableau suivant :
Demander un quota Quota par défaut
Requêtes de Gen AI Evaluation Service par minute 1 000 requêtes par projet et par région
Requêtes de prédiction en ligne par minute pour
base_model: gemini-2.0-flash
Consultez la section Quotas par région et par modèle.

Si vous recevez une erreur liée aux quotas lors de l'utilisation du service d'évaluation de l'IA générative, vous devrez peut-être envoyer une demande d'augmentation de quota. Pour en savoir plus, consultez Afficher et gérer les quotas.

Limite Valeur
Délai de requête Gen AI Evaluation Service 60 secondes

Lorsque vous utilisez le service d'évaluation de l'IA générative pour la première fois dans un nouveau projet, vous pouvez rencontrer un délai de configuration initiale de deux minutes. Si votre première requête échoue, attendez quelques minutes, puis réessayez. Les requêtes d'évaluation ultérieures sont généralement traitées dans un délai de 60 secondes.

Le nombre maximal de jetons d'entrée et de sortie pour les métriques basées sur un modèle dépend du modèle utilisé comme modèle de jugement. Pour obtenir la liste des modèles, consultez Modèles Google.

Quotas Vertex AI Pipelines

Chaque tâche de réglage utilise Vertex AI Pipelines. Pour en savoir plus, consultez les quotas et limites de Vertex AI Pipelines.

Étapes suivantes