Modèles Google
Le débit provisionné n'est compatible qu'avec les modèles que vous appelez directement depuis votre projet à l'aide de l'ID de modèle spécifique, et non d'un alias de modèle. Pour utiliser le débit provisionné afin d'effectuer des appels d'API à un modèle, vous devez utiliser l'ID de version de modèle spécifique (par exemple, gemini-2.0-flash-001
) et non un alias de version de modèle.
De plus, le débit provisionné n'est pas compatible avec les modèles appelés par d'autres produits Vertex AI, tels que Vertex AI Agents et Vertex AI Search. Par exemple, si vous effectuez des appels d'API vers Gemini 2.0 Flash lorsque vous utilisez Vertex AI Search, votre commande de débit provisionné pour Gemini 2.0 Flash ne garantit pas les appels effectués par Vertex AI Search.
Le tableau suivant indique le débit, les incréments d'achat et les taux d'utilisation pour les modèles Google compatibles avec le débit provisionné. Votre débit par seconde est défini comme la somme des caractères d'entrée de votre requête et des caractères de sortie du texte généré pour toutes les requêtes, par seconde.
Pour connaître le nombre de jetons requis par votre charge de travail, consultez le tokenizer du SDK ou l'API countTokens.
Modèle | Débit par seconde et par GSU | Unités | Incrément d'achat GSU minimal | Taux d'utilisation |
---|---|---|---|---|
Gemini 2.5 Flash-Lite Dernière version compatible : |
8070 | Jetons | 1 |
1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 5 jetons 1 jeton de texte de réponse de sortie = 4 jetons |
Gemini 2.5 Pro Dernière version compatible : |
650 | Jetons | 1 |
Moins de 200 000 jetons d'entrée : 1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 1 jeton 1 jeton de texte de réponse de sortie = 8 jetons 1 jeton de texte de raisonnement de sortie = 8 jetons Plus de 200 000 jetons d'entrée : 1 jeton de texte d'entrée = 2 jetons 1 jeton d'image d'entrée = 2 jetons 1 jeton vidéo d'entrée = 2 jetons 1 jeton audio d'entrée = 2 jetons 1 jeton de texte de réponse de sortie = 12 jetons 1 jeton de texte de raisonnement de sortie = 12 jetons |
Gemini 2.5 Flash Dernière version compatible : |
2690 | Jetons | 1 |
1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 4 jetons 1 jeton de texte de réponse de sortie = 9 jetons 1 jeton de texte de raisonnement de sortie = 9 jetons |
Gemini 2.0 Flash Dernière version compatible : |
3360 | Jetons | 1 |
1 jeton de texte d'entrée = 1 jeton 1 jeton d'image d'entrée = 1 jeton 1 jeton vidéo d'entrée = 1 jeton 1 jeton audio d'entrée = 7 jetons 1 jeton de texte de sortie = 4 jetons |
Gemini 2.0 Flash-Lite Dernière version compatible : |
6720 | Jetons | 1 |
1 jeton de texte en entrée = 1 jeton 1 jeton d'image en entrée = 1 jeton 1 jeton vidéo en entrée = 1 jeton 1 jeton audio en entrée = 1 jeton 1 jeton de texte en sortie = 4 jetons |
Imagen 3 | 0,025 | Images | 1 | Seules les images de sortie sont comptabilisées dans votre quota de débit provisionné. |
Imagen 3 Fast | 0,05 | Images | 1 | Seules les images de sortie sont comptabilisées dans votre quota de débit provisionné. |
Imagen 2 | 0,05 | Images | 1 | Seules les images de sortie sont comptabilisées dans votre quota de débit provisionné. |
Modification Imagen 2 | 0,05 | Images | 1 | Seules les images de sortie sont comptabilisées dans votre quota de débit provisionné. |
MedLM-medium | 2 000 | Personnages | 1 | 1 caractère d'entrée = 1 caractère 1 caractère de sortie = 2 caractères |
MedLM large | 200 | Personnages | 1 | 1 caractère d'entrée = 1 caractère 1 caractère de sortie = 3 caractères |
MedLM-Large-1.5 | 200 | Personnages | 1 | 1 caractère d'entrée = 1 caractère 1 caractère de sortie = 3 caractères |
Vous pouvez passer à de nouveaux modèles dès qu'ils sont disponibles. Pour en savoir plus sur la disponibilité des modèles et les dates d'arrêt, consultez Modèles Google.
Pour en savoir plus sur les emplacements compatibles, consultez la section Emplacements disponibles.
Compatibilité avec les modèles de points de terminaison globaux
Le débit provisionné est compatible avec le point de terminaison global pour les modèles suivants :
Modèle | Dernière version du modèle compatible |
---|---|
Gemini 2.5 Flash-Lite (aperçu) | gemini-2.5-flash-lite-preview-06-17 |
Gemini 2.5 Pro | gemini-2.5-pro |
Gemini 2.5 Flash | gemini-2.5-flash |
Gemini 2.0 Flash | gemini-2.0-flash-001 |
Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
Le trafic qui dépasse le quota de débit provisionné utilise le point de terminaison mondial par défaut.
Pour attribuer un débit provisionné au point de terminaison mondial d'un modèle, sélectionnez global
comme région lorsque vous passez une commande de débit provisionné.
Compatibilité avec les modèles affinés supervisés
Les éléments suivants sont compatibles avec les modèles Google qui acceptent l'affinage supervisé :
Le débit provisionné peut être appliqué aux modèles de base et aux versions affinées supervisées de ces modèles de base.
Les points de terminaison des modèles affinés supervisés et leur modèle de base correspondant sont comptabilisés dans le même quota de débit provisionné.
Par exemple, le débit provisionné acheté pour
gemini-2.0-flash-lite-001
pour un projet spécifique donne la priorité aux requêtes effectuées à partir de versions affinées supervisées degemini-2.0-flash-lite-001
créées dans ce projet. Utilisez l'en-tête approprié pour contrôler le comportement du trafic.
Modèles de partenaires
Le tableau suivant indique le débit, les incréments d'achat et les taux d'utilisation pour les modèles partenaires compatibles avec le débit provisionné. Les modèles Claude sont mesurés en jetons par seconde, c'est-à-dire le nombre total de jetons d'entrée et de sortie pour l'ensemble des requêtes, par seconde.
Modèle | Débit par GSU (jetons/seconde) | Achat minimal de GSU | Incrément d'achat de GSU | Taux d'utilisation |
---|---|---|---|---|
Claude Opus 4 d'Anthropic | 70 | 35 | 1 | 1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton |
Claude Sonnet 4 d'Anthropic | 350 | 25 | 1 | 1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton |
Claude 3.7 Sonnet d'Anthropic | 350 | 25 | 1 | 1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton |
Claude 3.5 Sonnet v2 d'Anthropic | 350 | 25 | 1 | 1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton |
Claude 3.5 Haiku d'Anthropic | 2 000 | 10 | 1 | 1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton |
Claude 3 Opus d'Anthropic | 70 | 35 | 1 | 1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton |
Claude 3 Haiku d'Anthropic | 4 200 | 5 | 1 | 1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton |
Claude 3.5 Sonnet d'Anthropic | 350 | 25 | 1 | 1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons 1 jeton d'écriture dans le cache = 1,25 jeton 1 jeton de succès de cache (hit) = 0,1 jeton |
Pour en savoir plus sur les régions disponibles, consultez Disponibilité des régions Anthropic Claude. Pour commander un débit provisionné pour les modèles Anthropic, contactez votre responsable de compte.Google Cloud