Utiliser le débit provisionné

Cette page explique comment fonctionne le débit provisionné, comment contrôler les dépassements ou contourner le débit provisionné, et comment surveiller l'utilisation.

Fonctionnement du débit provisionné

Cette section explique comment le débit provisionné fonctionne à l'aide de la vérification des quotas pendant la période d'application des quotas.

Vérification des quotas de débit provisionné

Votre quota maximal de débit provisionné est un multiple du nombre d'unités de scaling pour l'IA générative (GSU) achetées et du débit par GSU. Il est vérifié chaque fois que vous effectuez une requête au cours de votre période d'application des quotas, qui correspond à la fréquence à laquelle le quota maximal de débit provisionné est appliqué.

Au moment de la réception d'une requête, la taille réelle de la réponse est inconnue. Étant donné que nous priorisons la rapidité de réponse pour les applications en temps réel, le débit provisionné estime la taille du jeton de sortie. Si l'estimation initiale dépasse le quota maximal de débit provisionné disponible, la requête est traitée en tant que paiement à l'usage. Sinon, elle est traitée en tant que débit provisionné. Pour ce faire, comparez l'estimation initiale au quota maximal de débit provisionné.

Lorsque la réponse est générée et que la taille réelle du jeton de sortie est connue, l'utilisation réelle et le quota sont mis en correspondance en ajoutant la différence entre l'estimation et l'utilisation réelle au montant du quota de débit provisionné disponible.

Période d'application des quotas de débit provisionné

Pour les modèles gemini-2.0-flash-lite et gemini-2.0-flash, la période d'application des quotas peut prendre jusqu'à 30 secondes et est susceptible d'être modifiée. Cela signifie que vous pouvez parfois constater un trafic prioritaire qui dépasse votre quota par seconde, mais vous ne devez pas dépasser votre quota sur une base de 30 secondes. La période d'application des quotas pour les autres modèles peut prendre jusqu'à une minute. Ces périodes sont basées sur l'heure interne de Vertex AI et sont indépendantes du moment où les requêtes sont effectuées.

Par exemple, si vous achetez une GSU de gemini-2.0-flash-001, vous devriez vous attendre à un débit de 800 caractères par seconde en mode toujours actif. En moyenne, vous ne pouvez pas dépasser 24 000 caractères par tranche de 30 secondes, calculée à l'aide de la formule suivante:

800 characters per second * 30 seconds = 24,000 characters

Si vous avez envoyé une seule requête toute la journée qui a consommé 1 600 caractères en une seconde,elle peut toujours être traitée en tant que requête de débit provisionné, car elle est toujours inférieure au seuil de 24 000 caractères par 30 secondes,même si vous avez dépassé la limite de 800 caractères par seconde au moment de la requête.

Contrôler les dépassements ou contourner le débit provisionné

Utilisez l'API pour contrôler les dépassements lorsque vous dépassez le débit souscrit ou pour contourner le débit provisionné pour des requêtes spécifiques.

Lisez chacune des options pour déterminer ce que vous devez faire pour répondre à votre cas d'utilisation.

Comportement par défaut

Si vous dépassez le débit acheté, les dépassements sont facturés à la demande, au tarif de paiement à l'usage. Une fois que votre commande de débit provisionné est active, le comportement par défaut est automatiquement appliqué. Vous n'avez pas besoin de modifier votre code pour commencer à utiliser votre commande.

Utiliser uniquement le débit provisionné

Si vous gérez les coûts de manière à éviter la facturation à la demande, n'utilisez que le débit provisionné. Les requêtes qui dépassent le montant de la commande de débit provisionné renvoient une erreur 429.

Lorsque vous envoyez des requêtes à l'API, définissez l'en-tête HTTP X-Vertex-AI-LLM-Request-Type sur dedicated.

Utiliser uniquement le paiement à l'usage

On parle également d'utilisation à la demande. Les requêtes contournent la commande de débit provisionné et sont envoyées directement au paiement à l'usage. Cela peut être utile pour les tests ou les applications en cours de développement.

Lorsque vous envoyez des requêtes à l'API, définissez l'en-tête HTTP X-Vertex-AI-LLM-Request-Type sur shared.

Exemple

Gen AI SDK for Python

Installer

pip install --upgrade google-genai
Pour en savoir plus, consultez la Documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.0-flash-001",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

REST

Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester une requête textuelle. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Surveiller le débit provisionné

Vous pouvez surveiller vous-même votre utilisation du débit provisionné à l'aide d'un ensemble de métriques mesurées sur le type de ressource aiplatform.googleapis.com/PublisherModel.

La surveillance du trafic du débit provisionné est une fonctionnalité de la version Preview publique.

Dimensions

Vous pouvez filtrer les métriques à l'aide des dimensions suivantes:

Dimension Valeurs
type input
output
request_type

dedicated: le trafic est traité à l'aide du débit provisionné.

shared : si le débit provisionné est actif, le trafic est traité en mode "paiement à l'utilisation" par défaut si vous dépassez votre quota maximal de débit provisionné ou si vous avez utilisé l'en-tête HTTP shared.

Préfixe de chemin d'accès

Le préfixe de chemin d'accès d'une métrique est aiplatform.googleapis.com/publisher/online_serving.

Par exemple, le chemin d'accès complet de la métrique /consumed_throughput est aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Métriques

Les métriques Cloud Monitoring suivantes sont disponibles sur la ressource aiplatform.googleapis.com/PublisherModel pour les modèles Gemini. Utilisez les types de requêtes dedicated pour filtrer l'utilisation du débit provisionné.

Métrique Nom à afficher Description
/dedicated_gsu_limit Limite (GSU) Limite dédiée dans les GSU. Utilisez cette métrique pour comprendre votre quota maximal de débit provisionné en GSU.
/tokens Jetons Distribution du nombre de jetons d'entrée et de sortie
/token_count Nombre de jetons Nombre cumulé de jetons d'entrée et de sortie
/consumed_token_throughput Débit de jetons Utilisation du débit, qui tient compte du taux d'utilisation des jetons et intègre la réconciliation des quotas. Consultez la section Vérifier le quota de débit provisionné.

Utilisez cette métrique pour comprendre comment votre quota de débit provisionné a été utilisé.
/dedicated_token_limit Limite (jetons par seconde) Limite dédiée en jetons par seconde. Utilisez cette métrique pour comprendre votre quota maximal de débit provisionné pour les modèles basés sur des jetons.
/characters Caractères Distribution du nombre de caractères d'entrée et de sortie
/character_count Nombre de caractères Nombre cumulé de caractères d'entrée et de sortie
/consumed_throughput Débit en caractères Utilisation du débit, qui tient compte du taux d'utilisation en caractères et intègre la réconciliation des quotas Vérification des quotas de débit provisionné.

Cette métrique vous permet de comprendre comment votre quota de débit provisionné a été utilisé.

Pour les modèles basés sur des jetons, cette métrique équivaut au débit consommé en jetons multiplié par quatre.
/dedicated_character_limit Limite (caractères par seconde) Limite dédiée en caractères par seconde. Utilisez cette métrique pour comprendre votre quota maximal de débit provisionné pour les modèles basés sur des caractères.
/model_invocation_count Nombre d'appels de modèle Nombre d'appels du modèle (requêtes de prédiction)
/model_invocation_latencies Latences d'appel du modèle Latences d'appel du modèle (latences de prédiction)
/first_token_latencies Latences du premier jeton Durée entre la réception de la requête et le premier jeton renvoyé

Les modèles Anthropic disposent également d'un filtre pour le débit provisionné, mais uniquement pour tokens/token_count.

Tableaux de bord

Les tableaux de bord de surveillance par défaut pour le débit provisionné fournissent des métriques qui vous permettent de mieux comprendre votre utilisation et l'utilisation du débit provisionné. Pour accéder aux tableaux de bord, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Débit provisionné.

    Accéder à la page "Débit provisionné"

  2. Pour afficher l'utilisation du débit provisionné de chaque modèle dans vos commandes, sélectionnez l'onglet Récapitulatif de l'utilisation.

  3. Sélectionnez un modèle dans le tableau Utilisation du débit provisionné par modèle pour afficher d'autres métriques spécifiques au modèle sélectionné.

Limites du tableau de bord

Le tableau de bord peut afficher des résultats inattendus, en particulier si le trafic est irrégulier. Les raisons suivantes peuvent contribuer à ces résultats:

  • Les périodes de plus de 12 heures peuvent entraîner une représentation moins précise de la période d'application des quotas. Les métriques de débit et leurs dérivées, telles que l'utilisation, affichent des moyennes sur les périodes d'alignement basées sur la période sélectionnée. Lorsque la plage temporelle s'étend, chaque période d'alignement s'étend également. La période d'alignement s'étend sur le calcul de l'utilisation moyenne. Étant donné que l'application des quotas est calculée au niveau de la minute, définir la plage de dates sur une période de 12 heures ou moins génère des données au niveau de la minute qui sont plus comparables à la période d'application des quotas réelle. Pour en savoir plus sur les périodes d'alignement, consultez la section Alignement: régularisation dans la série. Pour en savoir plus sur les plages temporelles, consultez la section Régulariser les intervalles de temps.
  • Si plusieurs requêtes ont été envoyées en même temps, les agrégations de surveillance peuvent affecter votre capacité à filtrer les requêtes spécifiques.
  • Le débit provisionné limite le trafic lorsqu'une requête a été envoyée, mais enregistre les métriques d'utilisation une fois le quota concilié.
  • Les périodes d'application des quotas de débit provisionné sont indépendantes des périodes d'agrégation de surveillance ou des périodes de requête ou de réponse, et ne sont pas nécessairement alignées sur elles.
  • Si aucune erreur ne s'est produite, un message d'erreur peut s'afficher dans le graphique sur le taux d'erreur. Par exemple, Une erreur s'est produite lors de la demande de données. Une ou plusieurs ressources n'ont pas pu être trouvées.

Alertes

Une fois les alertes activées, définissez des alertes par défaut pour vous aider à gérer votre utilisation du trafic.

Activer les alertes

Pour activer les alertes dans le tableau de bord, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Débit provisionné.

    Accéder à la page "Débit provisionné"

  2. Pour afficher l'utilisation du débit provisionné de chaque modèle dans vos commandes, sélectionnez l'onglet Récapitulatif de l'utilisation.

  3. Sélectionnez Alertes recommandées. Les alertes suivantes s'affichent:

    • Provisioned Throughput Usage Reached Limit
    • Provisioned Throughput Utilization Exceeded 80%
    • Provisioned Throughput Utilization Exceeded 90%
  4. Vérifiez les alertes qui vous aident à gérer votre trafic.

Afficher plus de détails sur l'alerte

Pour en savoir plus sur les alertes, procédez comme suit:

  1. Accédez à la page Intégrations.

    Accéder à la page "Intégrations"

  2. Saisissez vertex dans le champ Filter (Filtrer), puis appuyez sur Enter (Entrée). Google Vertex AI s'affiche.

  3. Pour en savoir plus, cliquez sur Afficher les détails. Le volet Détails de Google Vertex AI s'affiche.

  4. Sélectionnez l'onglet Alertes, puis un modèle de règle d'alerte.

Étape suivante