Vous pouvez diffuser vos réponses Claude en streaming pour réduire la perception de la latence côté utilisateur. Une réponse en streaming utilise des événements envoyés par le serveur (SSE) pour diffuser la réponse de manière incrémentielle.
Les modèles Claude vous sont facturés à mesure que vous les utilisez (paiement à l'usage) ou vous payez des frais fixes lorsque vous utilisez le débit provisionné. Pour le paiement à l'usage, consultez les modèles Claude d'Anthropic sur la page des tarifs de Vertex AI.
Modèles Claude disponibles
Les modèles suivants sont disponibles auprès d'Anthropic pour une utilisation dans Vertex AI. Pour accéder à un modèle Claude, accédez à sa fiche de modèle Model Garden.
Claude 3.7 Sonnet
Claude 3.7 Sonnet est le modèle le plus intelligent d'Anthropic à ce jour et le premier modèle Claude à proposer une réflexion étendue, c'est-à-dire la capacité à résoudre des problèmes complexes avec un raisonnement minutieux et par étapes. Claude 3.7 Sonnet est un modèle unique qui vous permet d'équilibrer la vitesse et la qualité en choisissant entre la pensée standard pour des réponses quasi instantanées ou la pensée étendue pour un raisonnement avancé.
Pour en savoir plus sur la pensée étendue, consultez la documentation d'Anthropic.
Claude 3.7 Sonnet est optimisé pour les cas d'utilisation suivants:
- Codage agentif : Claude 3.7 Sonnet est à la pointe du codage agentif et peut effectuer des tâches tout au long du cycle de vie du développement logiciel, de la planification initiale aux corrections de bugs, de la maintenance aux refactorisations importantes. Il offre de bonnes performances à la fois pour la planification et la résolution de tâches de codage complexes, ce qui fait de Claude 3.7 Sonnet un choix idéal pour alimenter les processus de développement logiciel de bout en bout.
- Agents de première ligne : Claude 3.7 Sonnet offre une meilleure exécution des instructions, une sélection d'outils, une correction des erreurs et un raisonnement avancé pour les agents de première ligne et les workflows d'IA complexes.
- Utilisation d'un ordinateur : Claude 3.7 Sonnet est notre modèle le plus précis pour l'utilisation d'un ordinateur. Il permet aux développeurs d'indiquer à Claude d'utiliser un ordinateur comme le font les humains.
- Génération et analyse de contenu : Claude 3.7 Sonnet excelle dans l'écriture et est capable de comprendre les nuances et le ton des contenus pour générer des contenus plus attrayants et les analyser plus en profondeur.
- Extraction de données visuelles : grâce aux compétences de vision robustes de Claude 3.7 Sonnet, il s'agit du bon choix pour les équipes qui souhaitent extraire des données brutes à partir de visuels tels que des graphiques ou des graphiques dans le cadre de leur workflow d'IA.
Accéder à la fiche de modèle Claude 3.7 Sonnet
Claude 3.5 Sonnet v2
Claude 3.5 Sonnet v2 est un modèle de pointe pour les tâches d'ingénierie logicielle et les capacités agentives dans le monde réel. Claude 3.5 Sonnet v2 offre ces avancées au même prix et à la même vitesse que Claude 3.5 Sonnet.
La version améliorée du modèle Claude 3.5 Sonnet peut interagir avec des outils capables de manipuler un environnement de bureau d'ordinateur. Pour en savoir plus, consultez la documentation sur Anthropoic.
Claude 3.5 Sonnet est optimisé pour les cas d'utilisation suivants:
- Tâches agentives et utilisation d'outils : Claude 3.5 Sonnet offre une meilleure exécution des instructions, une sélection d'outils, une correction des erreurs et un raisonnement avancé pour les workflows agentifs qui nécessitent l'utilisation d'outils.
- Codage : pour les tâches de développement logiciel allant des migrations de code, des corrections de code et des traductions, Claude 3.5 Sonnet offre de bonnes performances à la fois pour la planification et la résolution des tâches de codage complexes.
- Questions/Réponses sur les documents : Claude 3.5 Sonnet combine une compréhension contextuelle solide, un raisonnement avancé et une synthèse pour fournir des réponses précises et humaines.
- Extraction de données visuelles : grâce aux compétences de vision de pointe de Claude 3.5 Sonnet, il peut extraire des données brutes à partir de visuels tels que des graphiques ou des graphiques dans le cadre de workflows d'IA.
- Génération et analyse de contenu : Claude 3.5 Sonnet peut comprendre les nuances et le ton du contenu, générer des contenus plus attrayants et les analyser plus en profondeur.
Accéder à la fiche de modèle Claude 3.5 Sonnet v2
Claude 3.5 Haiku
Claude 3.5 Haiku, la nouvelle génération du modèle le plus rapide et le plus économique d'Anthropic, est idéal pour les cas d'utilisation où la rapidité et le prix sont importants. Il améliore son prédécesseur dans tous les domaines. Claude 3.5 Haiku est optimisé pour les cas d'utilisation suivants:
- Finalisation du code : grâce à son temps de réponse rapide et à sa compréhension des modèles de programmation, Claude 3.5 Haiku excelle à fournir des suggestions et des finalisations de code rapides et précises dans les workflows de développement en temps réel.
- Chatbots interactifs : les capacités de raisonnement et de conversation naturelle améliorées de Claude 3.5 Haiku le rendent idéal pour créer des chatbots réactifs et attrayants capables de gérer efficacement de grands volumes d'interactions utilisateur.
- Extraction et étiquetage des données : grâce à ses compétences d'analyse améliorées, Claude 3.5 Haiku traite et catégorise efficacement les données, ce qui le rend utile pour l'extraction rapide des données et les tâches d'étiquetage automatisées.
- Modération de contenu en temps réel : grâce à ses solides compétences de raisonnement et à sa compréhension du contenu, Claude 3.5 Haiku offre une modération de contenu rapide et fiable pour les plates-formes qui nécessitent des temps de réponse immédiats à grande échelle.
Accéder à la fiche de modèle Claude 3.5 Haiku
Claude 3 Opus
Claude 3 Opus d'Anthropic est un modèle d'IA performant qui offre des performances de haut niveau pour des tâches très complexes. Il est capable de gérer des requêtes ouvertes et des scénarios invisibles avec une fluidité remarquable et une compréhension semblable à celle d'un être humain. Claude 3 Opus est optimisé pour les cas d'utilisation suivants:
Automatisation des tâches, comme le codage et la planification interactifs, ou l'exécution d'actions complexes via des API et des bases de données.
Tâches de recherche et développement, telles que l'examen de la recherche, le brainstorming et la génération d'hypothèses, ainsi que les tests de produits.
Tâches stratégiques, telles que l'analyse avancée de graphiques et de graphes, les données financières et les tendances du marché, ainsi que les prévisions
Tâches de vision, telles que le traitement d'images pour renvoyer une sortie textuelle. Analyse de diagrammes, de graphiques, de schémas techniques, de rapports et d'autres contenus visuels.
Accéder à la fiche de modèle Claude 3 Opus
Claude 3 Haiku
Claude 3 Haiku est le modèle de vision et de texte le plus rapide d'Anthropic. Il permet d'obtenir des réponses quasi instantanées à des requêtes de base. Il est conçu pour offrir des expériences d'IA fluides qui imitent les interactions humaines.
Interactions et traductions avec les clients en direct.
Modération de contenus pour détecter les comportements suspects ou les demandes des clients.
Tâches permettant d'économiser des coûts, telles que la gestion des stocks et l'extraction de connaissances à partir de données non structurées.
Tâches de vision, telles que le traitement d'images pour renvoyer une sortie textuelle, l'analyse de graphiques, de diagrammes techniques, des rapports et d'autres contenus visuels.
Accéder à la fiche de modèle Claude 3 Haiku
Claude 3.5 Sonnet
Claude 3.5 Sonnet d'Anthropic surpasse Claude 3 Opus sur un large éventail d'évaluations d'Anthropic, en raison de la rapidité et du coût de son modèle de milieu de gamme, Claude 3 Sonnet. Claude 3.5 Sonnet est optimisé pour les cas d'utilisation suivants:
Codage, par exemple écrire, modifier et exécuter du code avec des capacités de raisonnement et de dépannage sophistiquées
Gérez les requêtes complexes du service client en comprenant le contexte utilisateur et en orchestrant des workflows en plusieurs étapes.
La data science et l'analyse en parcourant les données non structurées et en exploitant plusieurs outils pour générer des insights.
Traitement visuel, comme l'interprétation de graphiques et de graphiques qui nécessitent une compréhension visuelle.
Écrire des contenus avec un ton plus naturel et plus humain
Accéder à la fiche de modèle Claude 3.5 Sonnet
Utiliser des modèles Claude
Vous pouvez utiliser le SDK d'Anthropic ou des commandes curl pour envoyer des requêtes au point de terminaison Vertex AI à l'aide des noms de modèles suivants:
- Pour Claude 3.7 Sonnet, utilisez
claude-3-7-sonnet@20250219
. - Pour Claude 3.5 Sonnet v2, utilisez
claude-3-5-sonnet-v2@20241022
. - Pour Claude 3.5 Haiku, utilisez
claude-3-5-haiku@20241022
. - Pour Claude 3 Opus, utilisez
claude-3-opus@20240229
. - Pour Claude 3.5 Sonnet, utilisez
claude-3-5-sonnet@20240620
. - Pour Claude 3 Haiku, utilisez
claude-3-haiku@20240307
.
Les versions de modèle Anthropic Claude doivent être utilisées avec un suffixe commençant par un symbole @
(par exemple, claude-3-7-sonnet@20250219
ou claude-3-5-haiku@20241022
) pour garantir un comportement cohérent.
Avant de commencer
Pour utiliser les modèles Anthropic Claude avec Vertex AI, procédez comme suit. Vous devez activer l'API Vertex AI (aiplatform.googleapis.com
) pour pouvoir utiliser Vertex AI. Si vous disposez déjà d'un projet pour lequel l'API Vertex AI est activée, vous pouvez utiliser ce projet au lieu de créer un projet.
Assurez-vous de disposer des autorisations requises pour activer et utiliser des modèles partenaires. Pour en savoir plus, consultez la section Accorder les autorisations requises.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Go to one of the following Model Garden model cards, then click Enable:
Utiliser le SDK Anthropic
Vous pouvez envoyer des requêtes API aux modèles Anthropic Claude à l'aide du SDK Anthropic Claude. Pour en savoir plus, consultez les ressources suivantes :
- Documentation de référence de l'API Claude Messages
- Bibliothèque d'API Anthropic pour Python
- Bibliothèque d'API TypeScript Anthropic Vertex AI
Effectuer un appel en flux continu à un modèle Claude à l'aide du SDK Vertex d'Anthropic
L'exemple de code suivant utilise le SDK Vertex Anthropic pour effectuer un appel en flux continu à un modèle Claude.
SDK Vertex AI pour Python
Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API SDK Vertex AI pour Python.
Effectuer un appel unaire à un modèle Claude à l'aide du SDK Vertex d'Anthropic
L'exemple de code suivant utilise le SDK Vertex Anthropic pour effectuer un appel unaire à un modèle Claude.
SDK Vertex AI pour Python
Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API SDK Vertex AI pour Python.
Utiliser une commande curl
Vous pouvez utiliser une commande curl pour envoyer une requête au point de terminaison Vertex AI. La commande curl spécifie le modèle Claude compatible que vous souhaitez utiliser.
Les versions de modèle Anthropic Claude doivent être utilisées avec un suffixe commençant par un symbole @
(par exemple, claude-3-7-sonnet@20250219
ou claude-3-5-haiku@20241022
) pour garantir un comportement cohérent.
La rubrique suivante explique comment créer une commande curl et inclut un exemple de commande curl.
REST
Pour tester une requête de texte à l'aide de l'API Vertex AI, envoyez une requête POST au point de terminaison du modèle de l'éditeur.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- LOCATION: région compatible avec les modèles Anthropic Claude.
- MODEL : nom du modèle que vous souhaitez utiliser.
- ROLE : rôle associé à un message. Vous pouvez spécifier
user
ouassistant
. Le premier message doit utiliser le rôleuser
. Les modèles Claude fonctionnent avec des toursuser
etassistant
alternés. Si le message final utilise le rôleassistant
, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle. - STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en streaming pour réduire la perception de la latence d'utilisation finale. Définissez la valeur sur
true
pour diffuser la réponse et surfalse
pour la renvoyer simultanément. - CONTENT : contenu, tel que le texte, du message
user
ouassistant
. - MAX_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à 3,5 caractères. 100 jetons correspondent à environ 60-80 mots.
Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.
- TOP_P (facultatif) : Top-P modifie la façon dont le modèle sélectionne les jetons pour la sortie. Les jetons sont sélectionnés de la valeur la plus élevée (voir top-K) à la moins probable jusqu'à ce que la somme de leurs probabilités soit égale à la valeur top-P. Par exemple, si les jetons A, B et C ont une probabilité de 0,3, 0,2 et 0,1 et que la valeur de top-P est supérieure à
0.5
, le modèle sélectionne A ou B comme jeton suivant en utilisant la température et exclut C comme candidat.Spécifiez une valeur inférieure pour les réponses moins aléatoires et une valeur plus élevée pour les réponses plus aléatoires.
- TOP_K (facultatif) :
Top-K modifie la façon dont le modèle sélectionne les jetons pour la sortie. Un top-K de
1
signifie que le prochain jeton sélectionné est le plus probable parmi tous les jetons du vocabulaire du modèle (également appelé décodage gourmand), tandis que le top-K de3
signifie que le jeton suivant est sélectionné parmi les trois jetons les plus probables en utilisant la température.Pour chaque étape de sélection du jeton, les jetons top-K avec les probabilités les plus élevées sont échantillonnés. Les jetons sont ensuite filtrés en fonction du top-P avec le jeton final sélectionné à l'aide de l'échantillonnage de température.
Spécifiez une valeur inférieure pour les réponses moins aléatoires et une valeur plus élevée pour les réponses plus aléatoires.
- TYPE: pour Claude 3.7 Sonnet uniquement, pour activer le mode de réflexion étendue, spécifiez
enable
. - BUDGET_TOKENS: si vous activez la réflexion étendue, vous devez spécifier le nombre de jetons que le modèle peut utiliser pour son raisonnement interne dans la sortie. Les budgets plus importants peuvent permettre une analyse plus approfondie des problèmes complexes et améliorer la qualité des réponses. Vous devez spécifier une valeur supérieure ou égale à
1024
, mais inférieure àMAX_TOKENS
.
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
Corps JSON de la requête :
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM, "thinking": { "type": "TYPE", "budget_tokens": BUDGET_TOKENS } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON semblable à la suivante.
Exemple de commande curl
MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
Utilisation de l'outil (appel de fonction)
Les modèles Claude d'Anthropic sont compatibles avec les outils et les appels de fonction pour améliorer les fonctionnalités d'un modèle. Pour en savoir plus, consultez la présentation de l'utilisation de l'outil dans la documentation Anthropic.
Les exemples suivants montrent comment utiliser des outils à l'aide d'un SDK ou d'une commande curl. Les exemples recherchent des restaurants ouverts à proximité de San Francisco.
SDK Vertex AI pour Python
Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API SDK Vertex AI pour Python.
REST
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- LOCATION: région compatible avec les modèles Anthropic Claude.
- MODEL: nom du modèle à utiliser.
- ROLE : rôle associé à un message. Vous pouvez spécifier
user
ouassistant
. Le premier message doit utiliser le rôleuser
. Les modèles Claude fonctionnent avec des toursuser
etassistant
alternés. Si le message final utilise le rôleassistant
, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle. - STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence d'utilisation finale. Définissez la valeur sur
true
pour diffuser la réponse et surfalse
pour la renvoyer simultanément. - CONTENT : contenu, tel que le texte, du message
user
ouassistant
. - MAX_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à 3,5 caractères. 100 jetons correspondent à environ 60-80 mots.
Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict
Corps JSON de la requête :
{ "anthropic_version": "vertex-2023-10-16", "max_tokens": MAX_TOKENS, "stream": STREAM, "tools": [ { "name": "text_search_places_api", "description": "Returns information about a set of places based on a string", "input_schema": { "type": "object", "properties": { "textQuery": { "type": "string", "description": "The text string on which to search" }, "priceLevels": { "type": "array", "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]", }, "openNow": { "type": "boolean", "description": "Describes whether a place is open for business at the time of the query." }, }, "required": ["textQuery"] } } ], "messages": [ { "role": "user", "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??" } ] }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON semblable à la suivante.
Utiliser Vertex AI Studio
Pour certains des modèles Claude d'Anthropic, vous pouvez utiliser Vertex AI Studio pour créer rapidement des prototypes et tester des modèles d'IA générative dans la console Google Cloud. Par exemple, vous pouvez utiliser Vertex AI Studio pour comparer les réponses du modèle Claude à d'autres modèles compatibles, tels que Google Gemini.
Pour en savoir plus, consultez Guide de démarrage rapide: envoyer des requêtes textuelles à Gemini à l'aide de Vertex AI Studio.
Régions où Anthropic Claude est disponible
Claude 3.7 Sonnet est disponible dans les régions suivantes :
us-east5 (Ohio)
europe-west1 (Belgium)
us-east5 (Ohio)
europe-west1 (Belgium)
us-east5 (Ohio)
us-east5 (Ohio)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
Quotas et longueur de contexte acceptés pour Anthropic Claude
Pour les modèles Claude, un quota s'applique à chaque région dans laquelle le modèle est disponible. Le quota est spécifié en requêtes par minute (RPM) et en jetons par minute (TPM). Le nombre de jetons par minute inclut à la fois les jetons d'entrée et de sortie.
Pour maintenir les performances globales du service et une utilisation acceptable, les quotas maximaux peuvent varier selon le compte et, dans certains cas, l'accès peut être limité. Consultez les quotas de votre projet sur la page Quotas et limites du système de la console Google Cloud. Vous devez également disposer des quotas suivants:
Online prediction requests per base model per minute per region per base_model
Online prediction tokens per minute per base model per minute per region per base_model
Claude 3.7 Sonnet
Le tableau suivant présente les quotas par défaut et la longueur de contexte acceptée pour Claude 3.7 Sonnet.
Région | Quotas | Longueur de contexte compatible |
---|---|---|
us-east5 (Ohio) |
Jusqu'à 55 RPM, 500 000 TPM | 200 000 jetons |
europe-west1 (Belgium) |
Jusqu'à 40 RPM, 300 000 TPM | 200 000 jetons |
Claude 3.5 Sonnet v2
Le tableau suivant présente les quotas par défaut et la longueur de contexte acceptée pour Claude 3.5 Sonnet v2.
Région | Quotas | Longueur de contexte compatible |
---|---|---|
us-east5 (Ohio) |
Jusqu'à 90 RPM, 540 000 TPM | 200 000 jetons |
europe-west1 (Belgium) |
Jusqu'à 55 RPM, 330 000 TPM | 200 000 jetons |
Claude 3.5 Haiku
Le tableau suivant présente les quotas par défaut et la longueur de contexte acceptée pour Claude 3.5 Haiku.
Région | Quotas | Longueur de contexte compatible |
---|---|---|
us-east5 (Ohio) |
Jusqu'à 80 RPM, 350 000 TPM | 200 000 jetons |
Claude 3 Opus
Le tableau suivant présente les quotas par défaut et la longueur de contexte acceptée pour Claude 3 Opus.
Région | Quotas | Longueur de contexte compatible |
---|---|---|
us-east5 (Ohio) |
Jusqu'à 20 RPM, 105 000 TPM | 200 000 jetons |
Claude 3 Haiku
Le tableau suivant présente les quotas par défaut et la longueur de contexte acceptée pour Claude 3 Haiku.
Région | Quotas | Longueur de contexte compatible |
---|---|---|
us-east5 (Ohio) |
Jusqu'à 245 RPM, 600 000 TPM | 200 000 jetons |
asia-southeast1 (Singapore) |
Jusqu'à 70 RPM, 174 000 TPM | 200 000 jetons |
europe-west1 (Belgium) |
Jusqu'à 75 RPM, 181 000 TPM | 200 000 jetons |
Claude 3.5 Sonnet
Le tableau suivant présente les quotas par défaut et la longueur de contexte acceptée pour Claude 3.5 Sonnet.
Région | Quotas | Longueur de contexte compatible |
---|---|---|
us-east5 (Ohio) |
Jusqu'à 120 RPM, 555 000 TPM | 200 000 jetons |
asia-southeast1 (Singapore) |
Jusqu'à 35 RPM, 150 000 TPM | 200 000 jetons |
europe-west1 (Belgium) |
Jusqu'à 130 RPM, 600 000 TPM | 200 000 jetons |
Si vous souhaitez augmenter vos quotas pour l'IA générative sur Vertex AI, vous pouvez en faire la demande via la console Google Cloud. Pour en savoir plus sur les quotas, consultez la page Utiliser des quotas.