Calculer les exigences de débit provisionné

Cette section explique les concepts d'unité d'échelle d'IA générative (GSU) et de taux d'utilisation. Le débit provisionné est calculé et facturé en fonction des unités de scaling pour l'IA générative (GSU) et des taux d'utilisation.

GSU et taux d'avancement

Une unité de scaling d'IA générative (GSU) est une mesure du débit de vos requêtes et de vos réponses. Ce montant spécifie le débit à provisionner pour un modèle.

Un taux d'utilisation est un ratio qui convertit les unités d'entrée et de sortie (telles que les jetons, les caractères ou les images) en jetons d'entrée par seconde, en caractères d'entrée par seconde ou en images d'entrée par seconde, respectivement. Ce ratio représente le débit et est utilisé pour produire une unité standard pour tous les modèles.

Les différents modèles utilisent des quantités de débit différentes. Pour en savoir plus sur le montant minimal d'achat de GSU et les incréments pour chaque modèle, consultez Modèles compatibles et taux de consommation dans ce document.

Cette équation montre comment le débit est calculé :

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Le débit calculé par seconde détermine le nombre de GSU dont vous avez besoin pour votre cas d'utilisation.

Remarques importantes

Pour vous aider à planifier vos besoins en débit provisionné, examinez les points importants suivants :

  • Les requêtes ont la priorité.

    Les requêtes des clients de débit provisionné ont la priorité et sont traitées avant les requêtes à la demande.

  • Le débit ne s'accumule pas.

    Les débits inutilisés ne sont pas cumulatifs ni reportés sur le mois suivant.

  • Le débit provisionné est mesuré en jetons par seconde, en caractères par seconde ou en images par seconde.

    Le débit provisionné n'est pas mesuré uniquement en fonction des requêtes par minute (RPM). Il est mesuré en fonction de la taille des requêtes pour votre cas d'utilisation, de la taille des réponses et du nombre de requêtes par minute.

  • Le débit provisionné est spécifique à un projet, une région, un modèle et une version.

    Le débit provisionné est attribué à une combinaison spécifique de projet, de région, de modèle et de version. Le même modèle appelé depuis une autre région ne sera pas comptabilisé dans votre quota de débit provisionné et ne sera pas priorisé par rapport aux requêtes à la demande.

mise en cache du contexte

Le débit provisionné est compatible avec la mise en cache du contexte par défaut. Toutefois, le débit provisionné n'est pas compatible avec la mise en cache des requêtes utilisant l'API Vertex AI qui incluent la récupération d'informations sur un cache de contexte.

Par défaut, Google met automatiquement en cache les entrées pour réduire les coûts et la latence. Pour les modèles Gemini 2.5 Flash et Gemini 2.5 Pro, les jetons mis en cache sont facturés avec une remise de 75 % par rapport aux jetons d'entrée standards en cas de succès du cache. Pour le débit provisionné, la remise est appliquée par le biais d'un taux d'utilisation réduit.

Par exemple, Gemini 2.5 Pro présente les taux de consommation suivants pour les jetons de texte en entrée et les jetons mis en cache :

  • 1 jeton de texte d'entrée = 1 jeton

  • 1 jeton de texte mis en cache en entrée = 0,25 jeton

Si vous envoyez 1 000 jetons d'entrée à ce modèle, votre débit provisionné diminuera de 1 000 jetons d'entrée par seconde. Toutefois, si vous envoyez 1 000 jetons mis en cache à Gemini 2.5 Pro, cela entraînera une diminution de votre débit provisionné de 250 jetons par seconde.

Notez que cela peut entraîner un débit plus élevé pour les requêtes similaires où les jetons ne sont pas mis en cache et où la remise de cache n'est pas appliquée.

Pour afficher les taux d'utilisation des modèles compatibles avec le débit provisionné, consultez Modèles compatibles et taux d'utilisation.

Exemple d'estimation de vos besoins de débit provisionné

Pour estimer vos besoins de débit provisionné, utilisez l'outil d'estimation de la console Google Cloud . L'exemple suivant illustre le processus d'estimation du débit provisionné pour votre modèle. La région n'est pas prise en compte dans les calculs d'estimation.

Ce tableau indique les taux d'utilisation pour gemini-2.0-flash que vous pouvez utiliser pour suivre l'exemple.

Modèle Débit par GSU Unités Incrément d'achat GSU minimal Taux d'utilisation
Gemini 2.0 Flash 3 360 Jetons 1 1 jeton de texte d'entrée = 1 jeton
1 jeton d'image d'entrée = 1 jeton
1 jeton vidéo d'entrée = 1 jeton
1 jeton audio d'entrée = 7 jetons
1 jeton de texte de sortie = 4 jetons
  1. Consignez vos exigences.

    1. Dans cet exemple, vous devez vérifier que vous pouvez prendre en charge 10 requêtes par seconde (RPS) pour une requête avec une entrée de 1 000 jetons de texte et 500 jetons audio, afin de recevoir une sortie de 300 jetons de texte en utilisant gemini-2.0-flash.

      Cette étape implique que vous comprenez votre cas d'utilisation, car vous avez identifié votre modèle, les RPS et la taille de vos entrées et sorties.

    2. Pour calculer votre débit, consultez les taux d'épuisement de votre modèle sélectionné.

  2. Calculez votre débit.

    1. Multipliez vos entrées par les taux d'utilisation pour obtenir le nombre total de jetons d'entrée :

      1 000 jetons* (1 jeton par jeton de texte d'entrée) + 500 jetons* (7 jetons par jeton audio d'entrée) = 4 500 jetons d'entrée ajustés par requête.

    2. Multipliez vos sorties par les taux de diminution pour obtenir le nombre total de jetons de sortie :

      300 x (4 jetons par jeton de texte de sortie) = 1 200 jetons de sortie ajustés pour la diminution par requête

    3. Additionnez vos totaux :

      4 500 jetons d'entrée ajustés pour la diminution + 1 200 jetons de sortie ajustés pour la diminution = 5 700 jetons au total par requête

    4. Multipliez le nombre total de jetons par le RPS pour obtenir le débit total par seconde :

      5 700 jetons au total par requête x 10 RPS = 57 000 jetons au total par seconde

  3. Calculez vos GSU.

    1. Les GSU correspondent au nombre total de jetons par seconde divisé par le débit par seconde et par GSU de la table des taux d'utilisation.

      57 000 jetons au total par seconde ÷ 3 360 jetons par seconde et par GSU = 16,96 GSU

    2. L'incrément minimal d'achat de GSU pour gemini-2.0-flash est de 1. Vous aurez donc besoin de 17 GSU pour assurer votre charge de travail.

Étapes suivantes