Utiliser les modèles Claude d'Anthropic

Les modèles Anthropic Claude sur Vertex AI offrent des modèles sans serveur et entièrement gérés en tant qu'API. Pour utiliser un modèle Claude sur Vertex AI, envoyez une requête directement au point de terminaison de l'API Vertex AI. Étant donné que les modèles Anthropic Claude utilisent une API gérée, vous n'avez pas à provisionner ni gérer l'infrastructure.

Vous pouvez diffuser vos réponses Claude en flux continu pour réduire la perception de la latence pour les utilisateurs finaux. Une réponse en flux continu utilise des événements envoyés par le serveur (SSE) pour diffuser la réponse de manière incrémentielle.

Les modèles Claude vous sont facturés à mesure que vous les utilisez (paiement à l'usage), ou vous devez vous acquitter de frais fixes lorsque vous utilisez le débit provisionné. Pour connaître les tarifs de paiement à l'usage, consultez la section sur les modèles Anthropic Claude de la page des tarifs de Vertex AI.

Modèles Claude disponibles

Les modèles suivants sont disponibles auprès d'Anthropic pour une utilisation dans Vertex AI. Pour obtenir un modèle Claude, accédez à sa fiche de modèle dans Model Garden.

Claude 3.7 Sonnet

Claude 3.7 Sonnet est le modèle le plus intelligent d'Anthropic à ce jour et le premier modèle Claude à proposer une réflexion étendue, c'est-à-dire la capacité de résoudre des problèmes complexes avec un raisonnement minutieux et progressif. Ce modèle unique vous permet d'équilibrer la vitesse et la qualité en choisissant entre la réflexion standard pour des réponses quasi instantanées ou la réflexion étendue pour un raisonnement avancé.

Pour en savoir plus sur la réflexion étendue, consultez la documentation d'Anthropic.

Claude 3.7 Sonnet est optimisé pour les cas d'utilisation suivants :

  • Codage agentif : Claude 3.7 Sonnet est un outil de pointe pour le codage agentif. Il peut effectuer des tâches tout au long du cycle de vie du développement logiciel, de la planification initiale aux corrections de bugs, en passant par la maintenance et les refactorisations importantes. Il offre de solides performances en termes de planification et de résolution des tâches de codage complexes, ce qui en fait un choix idéal pour alimenter les processus de développement logiciel de bout en bout.
  • Agents orientés client : Claude 3.7 Sonnet offre un suivi des instructions, une sélection d'outils, une correction des erreurs et un raisonnement avancé de qualité supérieure pour les agents orientés client et les workflows d'IA complexes.
  • Utilisation de l'ordinateur : Claude 3.7 Sonnet est notre modèle le plus précis pour l'utilisation de l'ordinateur. Il permet aux développeurs de demander à Claude d'utiliser les ordinateurs comme les humains.
  • Génération et analyse de contenu : Claude 3.7 Sonnet excelle en écriture et est capable de comprendre les nuances et le ton des contenus pour générer des contenus plus attrayants et en analyser de manière plus approfondie.
  • Extraction de données visuelles : grâce à ses compétences de vision robustes, Claude 3.7 Sonnet est le choix idéal pour les équipes qui souhaitent extraire des données brutes à partir de visuels tels que des graphiques dans le cadre de leur workflow d'IA.

Accéder à la fiche du modèle Claude 3.7 Sonnet

Claude 3.5 Sonnet v2

Claude 3.5 Sonnet v2 est un modèle de pointe pour les tâches d'ingénierie logicielle et les fonctionnalités agentives en conditions réelles. Il offre ces évolutions au même prix et à la même vitesse que Claude 3.5 Sonnet.

La version améliorée du modèle Claude 3.5 Sonnet peut interagir avec des outils capables de manipuler un environnement de bureau d'ordinateur. Pour en savoir plus, consultez la documentation d'Anthropic.

Claude 3.5 Sonnet est optimisé pour les cas d'utilisation suivants :

  • Tâches agentives et utilisation d'outils : Claude 3.5 Sonnet offre un suivi des instructions, une sélection d'outils, une correction des erreurs et un raisonnement avancé supérieurs pour les workflows agentifs qui nécessitent l'utilisation d'outils.
  • Codage : pour les tâches de développement logiciel allant des migrations et corrections de code aux traductions, Claude 3.5 Sonnet offre de solides performances en termes de planification et de résolution des tâches de codage complexes.
  • Systèmes de questions/réponses basés sur les documents : Claude 3.5 Sonnet combine une compréhension approfondie du contexte, un raisonnement avancé et une capacité de synthèse pour fournir des réponses précises et naturelles.
  • Extraction de données visuelles : grâce à ses compétences de vision de pointe, Claude 3.5 Sonnet peut extraire des données brutes à partir de visuels tels que des graphiques dans le cadre de workflows d'IA.
  • Génération et analyse de contenu : Claude 3.5 Sonnet peut comprendre les nuances et le ton des contenus, générer des contenus plus attrayants et en analyser de manière plus approfondie.

Accéder à la fiche du modèle Claude 3.5 Sonnet v2

Claude 3.5 Haiku

Claude 3.5 Haiku, la nouvelle génération du modèle le plus rapide et le plus économique d'Anthropic, est idéal pour les cas d'utilisation où la vitesse et le prix sont importants. Il améliore son prédécesseur dans tous les domaines. Claude 3.5 Haiku est optimisé pour les cas d'utilisation suivants :

  • Complétions de code : grâce à son temps de réponse rapide et à sa compréhension des schémas de programmation, Claude 3.5 Haiku excelle dans la fourniture de suggestions et de complétions de code rapide et précise dans les workflows de développement en temps réel.
  • Chatbots interactifs : les capacités de raisonnement et de conversation naturelle améliorées de Claude 3.5 Haiku en font un outil idéal pour créer des chatbots responsifs et conviviaux, capables de gérer efficacement un grand nombre d'interactions avec les utilisateurs.
  • Extraction et étiquetage des données : grâce à ses capacités d'analyse améliorées, Claude 3.5 Haiku traite et classe efficacement les données, ce qui le rend utile pour l'extraction rapide des données et les tâches d'étiquetage automatisées.
  • Modération de contenu en temps réel : grâce à ses solides compétences en raisonnement et à sa compréhension du contenu, Claude 3.5 Haiku assure une modération rapide et fiable des contenus pour les plates-formes qui nécessitent des temps de réponse immédiats à grande échelle.

Accéder à la fiche du modèle Claude 3.5 Haiku

Claude 3 Opus

Claude 3 Opus d'Anthropic est un modèle d'IA puissant qui offre des performances de haut niveau pour des tâches très complexes. Il est capable de gérer des requêtes ouvertes et des scénarios invisibles avec une fluidité remarquable et une compréhension semblable à celle d'un être humain. Claude 3 Opus est optimisé pour les cas d'utilisation suivants :

  • Automatisation des tâches, comme la planification et le codage interactifs, ou l'exécution d'actions complexes impliquant des API et des bases de données.

  • Tâches de recherche et de développement, telles que l'examen des recherches, le brainstorming et la génération d'hypothèses, ainsi que les tests de produits.

  • Tâches stratégiques, telles que l'analyse avancée de graphiques, de données financières et des tendances du marché, ainsi que les prévisions.

  • Tâches de vision, telles que le traitement d'images pour renvoyer une sortie textuelle. Analyse de graphiques, de schémas techniques, de rapports et d'autres contenus visuels.

Accéder à la fiche du modèle Claude 3 Opus

Claude 3 Haiku

Claude 3 Haiku est le modèle de vision et de texte le plus rapide d'Anthropic. Il permet d'obtenir des réponses quasi instantanées pour des requêtes simples et est conçu pour offrir des expériences d'IA fluides qui imitent les interactions humaines.

  • Interactions et traductions avec les clients en direct.

  • Modération de contenus pour détecter les comportements suspects ou les demandes des clients.

  • Tâches visant la réduction des coûts, telles que la gestion de l'inventaire et l'extraction de connaissances à partir de données non structurées.

  • Tâches de vision, telles que le traitement d'images pour renvoyer une sortie textuelle, l'analyse de graphiques, de diagrammes techniques, de rapports et d'autres contenus visuels.

Accéder à la fiche du modèle Claude 3 Haiku

Claude 3.5 Sonnet

Claude 3.5 Sonnet d'Anthropic surpasse Claude 3 Opus sur un large éventail d'évaluations internes, en raison de la rapidité et du coût de son modèle de milieu de gamme, Claude 3 Sonnet. Claude 3.5 Sonnet est optimisé pour les cas d'utilisation suivants :

  • Opérations de codage, comme l'écriture, la modification et l'exécution de code, avec des capacités de raisonnement et de correction d'erreurs sophistiquées.

  • Gestion de requêtes complexes émanant du service client grâce à la compréhension du contexte de l'utilisateur et à l'orchestration des workflows à plusieurs étapes.

  • Data science et analyse via la découverte des données non structurées, et exploitation de plusieurs outils pour générer des insights.

  • Actions de traitement visuel, comme l'interprétation de graphiques nécessitant une compréhension visuelle.

  • Rédaction de contenus avec un ton plus naturel et plus humain.

Accéder à la fiche du modèle Claude 3.5 Sonnet

Utiliser des modèles Claude

Vous pouvez utiliser le SDK Anthropic ou des commandes curl pour envoyer des requêtes au point de terminaison Vertex AI en employant les noms de modèles suivants :

  • Pour Claude 3.7 Sonnet, utilisez claude-3-7-sonnet@20250219.
  • Pour Claude 3.5 Sonnet v2, utilisez claude-3-5-sonnet-v2@20241022.
  • Pour Claude 3.5 Haiku, utilisez claude-3-5-haiku@20241022.
  • Pour Claude 3 Opus, utilisez claude-3-opus@20240229.
  • Pour Claude 3.5 Sonnet, utilisez claude-3-5-sonnet@20240620.
  • Pour Claude 3 Haiku, utilisez claude-3-haiku@20240307.

Les versions de modèle Anthropic Claude doivent être utilisées avec un suffixe commençant par un symbole @ (claude-3-7-sonnet@20250219 ou claude-3-5-haiku@20241022, par exemple) pour garantir un comportement cohérent.

Avant de commencer

Pour utiliser des modèles Anthropic Claude avec Vertex AI, procédez comme suit. Vous devez activer l'API Vertex AI (aiplatform.googleapis.com) pour pouvoir utiliser Vertex AI. Si vous disposez déjà d'un projet pour lequel l'API Vertex AI est activée, vous pouvez l'utiliser au lieu d'en créer un.

Assurez-vous de disposer des autorisations requises pour activer et utiliser des modèles partenaires. Pour en savoir plus, consultez Accorder les autorisations requises.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Accédez à l'une des fiches de modèle Model Garden suivantes, puis cliquez sur Activer :

Utiliser le SDK Anthropic

Vous pouvez envoyer des requêtes API aux modèles Anthropic Claude à l'aide du SDK Anthropic Claude. Pour en savoir plus, consultez les ressources suivantes :

Effectuer un appel en flux continu à un modèle Claude à l'aide du SDK Vertex d'Anthropic

L'exemple de code suivant utilise le SDK Vertex d'Anthropic pour effectuer un appel en flux continu à un modèle Claude.

SDK Vertex AI pour Python

Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez Installer le SDK Vertex AI pour Python. Pour en savoir plus, lisez la documentation de référence de l'API SDK Vertex AI pour Python.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
result = []

with client.messages.stream(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)
        result.append(text)

# Example response:
# Here's a simple recipe for delicious banana bread:
# Ingredients:
# - 2-3 ripe bananas, mashed
# - 1/3 cup melted butter
# ...
# ...
# 8. Bake for 50-60 minutes, or until a toothpick inserted into the center comes out clean.
# 9. Let cool in the pan for a few minutes, then remove and cool completely on a wire rack.

Effectuer un appel unaire à un modèle Claude à l'aide du SDK Vertex d'Anthropic

L'exemple de code suivant utilise le SDK Vertex d'Anthropic pour effectuer un appel unaire à un modèle Claude.

SDK Vertex AI pour Python

Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez Installer le SDK Vertex AI pour Python. Pour en savoir plus, lisez la documentation de référence de l'API SDK Vertex AI pour Python.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_0162rhgehxa9rvJM5BSVLZ9j",
#   "content": [
#     {
#       "text": "Here's a simple recipe for delicious banana bread:\n\nIngredients:\n- 2-3 ripe bananas...
#   ...

Utiliser une commande curl

Vous pouvez utiliser une commande curl pour envoyer une requête au point de terminaison Vertex AI. La commande curl spécifie le modèle Claude compatible que vous souhaitez utiliser.

Les versions de modèle Anthropic Claude doivent être utilisées avec un suffixe commençant par un symbole @ (claude-3-7-sonnet@20250219 ou claude-3-5-haiku@20241022, par exemple) pour garantir un comportement cohérent.

La rubrique suivante explique comment créer une commande curl et inclut un exemple de commande curl.

REST

Pour tester une requête textuelle à l'aide de l'API Vertex AI, envoyez une requête POST au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • LOCATION : région compatible avec les modèles Anthropic Claude.
  • MODEL : nom du modèle que vous souhaitez utiliser.
  • ROLE : rôle associé à un message. Vous pouvez spécifier user ou assistant. Le premier message doit utiliser le rôle user. Les modèles Claude fonctionnent avec des tours user et assistant alternés. Si le message final utilise le rôle assistant, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle.
  • STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence que peuvent avoir les utilisateurs finaux. Définissez la valeur sur true pour diffuser la réponse et sur false pour la renvoyer en une fois.
  • CONTENT : contenu du message user ou assistant (du texte, par exemple).
  • MAX_TOKENS : le nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à 3,5 caractères. 100 jetons correspondent environ à 60-80 mots.

    Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.

  • TOP_P (facultatif) : top-P modifie la façon dont le modèle sélectionne les jetons pour la sortie. Les jetons sont sélectionnés de la probabilité la plus forte (voir top-K) à la plus basse, jusqu'à ce que la somme de leurs probabilités soit égale à la valeur top-P. Par exemple, si les jetons A, B et C ont une probabilité de 0,3, 0,2 et 0,1 et que la valeur de top-P est 0.5, le modèle sélectionne A ou B comme jeton suivant à l'aide de la température et exclut le jeton C comme candidat.

    Spécifiez une valeur inférieure pour obtenir des réponses moins aléatoires et une valeur supérieure pour des réponses plus aléatoires.

  • TOP_K (facultatif) : top-K modifie la façon dont le modèle sélectionne les jetons pour la sortie. Une valeur top-K de 1 signifie que le prochain jeton sélectionné est le plus probable parmi tous les jetons du vocabulaire du modèle (une stratégie également appelée décodage glouton), tandis qu'une valeur top-K de 3 signifie que le jeton suivant est sélectionné parmi les trois jetons les plus probables à l'aide de la température.

    Pour chaque étape de sélection des jetons, les jetons top-K ayant les plus fortes probabilités sont échantillonnés. Les jetons sont ensuite filtrés en fonction du top-P, puis le jeton final est sélectionné à l'aide de l'échantillonnage de température.

    Spécifiez une valeur inférieure pour obtenir des réponses moins aléatoires et une valeur supérieure pour des réponses plus aléatoires.

  • TYPE : pour Claude 3.7 Sonnet uniquement, spécifiez enable pour activer le mode de réflexion étendue.
  • BUDGET_TOKENS : si vous activez la réflexion étendue, vous devez spécifier le nombre de jetons que le modèle peut utiliser pour son raisonnement interne dans la sortie. Des budgets plus importants permettent une analyse plus approfondie des problèmes complexes et améliorent la qualité des réponses. Vous devez spécifier une valeur supérieure ou égale à 1024, mais inférieure à MAX_TOKENS.

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict

Corps JSON de la requête :

{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": STREAM,
  "thinking": {
    "type": "TYPE",
    "budget_tokens": BUDGET_TOKENS
  }
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"

PowerShell

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Exemple de commande curl

MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [{
    "role": "user",
    "content": "Hello!"
  }],
  "max_tokens": 50,
  "stream": true}'

Utilisation des outils (appels de fonction)

Divers appels de fonctions et outils permettent d'améliorer encore les capacités des modèles Anthropic Claude. Pour en savoir plus, consultez la présentation de l'utilisation des outils dans la documentation Anthropic.

Les exemples suivants montrent comment utiliser des outils à l'aide d'un SDK ou d'une commande curl. L'objectif ici est de rechercher les restaurants ouverts à proximité dans la ville de San Francisco.

SDK Vertex AI pour Python

Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez Installer le SDK Vertex AI pour Python. Pour en savoir plus, lisez la documentation de référence de l'API SDK Vertex AI pour Python.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'
from anthropic import AnthropicVertex

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    tools=[
        {
            "name": "text_search_places_api",
            "description": "returns information about a set of places based on a string",
            "input_schema": {
                "type": "object",
                "properties": {
                    "textQuery": {
                        "type": "string",
                        "description": "The text string on which to search",
                    },
                    "priceLevels": {
                        "type": "array",
                        "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
                    },
                    "openNow": {
                        "type": "boolean",
                        "description": "whether those places are open for business.",
                    },
                },
                "required": ["textQuery"],
            },
        }
    ],
    messages=[
        {
            "role": "user",
            "content": "What are some affordable and good Italian restaurants open now in San Francisco??",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_018pk1ykbbxAYhyWUdP1bJoQ",
#   "content": [
#     {
#       "text": "To answer your question about affordable and good Italian restaurants
#       that are currently open in San Francisco....
# ...

REST

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • LOCATION : région compatible avec les modèles Anthropic Claude.
  • MODEL : nom du modèle à utiliser.
  • ROLE : rôle associé à un message. Vous pouvez spécifier user ou assistant. Le premier message doit utiliser le rôle user. Les modèles Claude fonctionnent avec des tours user et assistant alternés. Si le message final utilise le rôle assistant, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle.
  • STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence que peuvent avoir les utilisateurs finaux. Définissez la valeur sur true pour diffuser la réponse et sur false pour la renvoyer en une fois.
  • CONTENT : contenu du message user ou assistant (du texte, par exemple).
  • MAX_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à 3,5 caractères. 100 jetons correspondent environ à 60-80 mots.

    Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict

Corps JSON de la requête :


{
  "anthropic_version": "vertex-2023-10-16",
  "max_tokens": MAX_TOKENS,
  "stream": STREAM,
  "tools": [
    {
      "name": "text_search_places_api",
      "description": "Returns information about a set of places based on a string",
      "input_schema": {
        "type": "object",
        "properties": {
          "textQuery": {
            "type": "string",
            "description": "The text string on which to search"
          },
          "priceLevels": {
            "type": "array",
            "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
          },
          "openNow": {
            "type": "boolean",
            "description": "Describes whether a place is open for business at
            the time of the query."
          },
        },
        "required": ["textQuery"]
      }
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??"
    }
  ]
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"

PowerShell

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Utiliser Vertex AI Studio

Pour certains modèles Anthropic Claude, vous pouvez utiliser Vertex AI Studio pour créer rapidement des prototypes et tester des modèles d'IA générative dans la console Google Cloud . Par exemple, vous pouvez utiliser Vertex AI Studio pour comparer les réponses du modèle Claude à celles d'autres modèles acceptés, tels que Google Gemini.

Pour en savoir plus, consultez Démarrage rapide : envoyer des requêtes textuelles à Gemini à l'aide de Vertex AI Studio.

Disponibilité d'Anthropic Claude par région

Claude 3.7 Sonnet est disponible dans les régions suivantes :
  • us-east5 (Ohio)
  • europe-west1 (Belgium)
Claude 3.5 Sonnet v2 est disponible dans les régions suivantes :
  • us-east5 (Ohio)
  • europe-west1 (Belgium)
Claude 3.5 Haiku est disponible dans les régions suivantes :
  • us-east5 (Ohio)
Claude 3 Opus est disponible dans la région suivante :
  • us-east5 (Ohio)
Claude 3.5 Sonnet est disponible dans les régions suivantes :
  • us-east5 (Ohio)
  • asia-southeast1 (Singapore)
  • europe-west1 (Belgium)
Claude 3 Haiku est disponible dans les régions suivantes :
  • us-east5 (Ohio)
  • asia-southeast1 (Singapore)
  • europe-west1 (Belgium)

Quotas et longueur de contexte disponibles pour Anthropic Claude

En ce qui concerne les modèles Claude, un quota s'applique pour chaque région dans laquelle le modèle est disponible. Le quota est spécifié en requêtes par minute (RPM) et en jetons par minute (TPM). Le nombre de jetons par minute inclut à la fois les jetons d'entrée et de sortie.

Dans l'optique de maintenir les performances globales du service et une utilisation acceptable, les quotas maximaux peuvent varier en fonction du compte et, dans certains cas, l'accès peut être limité. Consultez les quotas de votre projet sur la page Quotas et limites du système de la console Google Cloud . Vous devez également disposer des quotas suivants :

  • Online prediction requests per base model per minute per region per base_model
  • Online prediction tokens per minute per base model per minute per region per base_model

Claude 3.7 Sonnet

Le tableau suivant présente les quotas par défaut et la longueur de contexte disponible pour Claude 3.7 Sonnet.

Région Quotas Longueur de contexte disponible
us-east5 (Ohio) Jusqu'à 55 RPM, 500 000 TPM 200 000 jetons
europe-west1 (Belgium) Jusqu'à 40 RPM, 300 000 TPM 200 000 jetons

Claude 3.5 Sonnet v2

Le tableau suivant présente les quotas par défaut et la longueur de contexte disponible pour Claude 3.5 Sonnet v2.

Région Quotas Longueur de contexte disponible
us-east5 (Ohio) Jusqu'à 90 RPM, 540 000 TPM 200 000 jetons
europe-west1 (Belgium) Jusqu'à 55 RPM, 330 000 TPM 200 000 jetons

Claude 3.5 Haiku

Le tableau suivant présente les quotas par défaut et la longueur de contexte disponible pour Claude 3.5 Haiku.

Région Quotas Longueur de contexte disponible
us-east5 (Ohio) Jusqu'à 80 RPM, 350 000 TPM 200 000 jetons

Claude 3 Opus

Le tableau suivant présente les quotas par défaut et la longueur de contexte disponible pour Claude 3 Opus.

Région Quotas Longueur de contexte disponible
us-east5 (Ohio) Jusqu'à 20 RPM, 105 000 TPM 200 000 jetons

Claude 3 Haiku

Le tableau suivant présente les quotas par défaut et la longueur de contexte disponible pour Claude 3 Haiku.

Région Quotas Longueur de contexte disponible
us-east5 (Ohio) Jusqu'à 245 RPM, 600 000 TPM 200 000 jetons
asia-southeast1 (Singapore) Jusqu'à 70 RPM, 174 000 TPM 200 000 jetons
europe-west1 (Belgium) Jusqu'à 75 RPM, 181 000 TPM 200 000 jetons

Claude 3.5 Sonnet

Le tableau suivant présente les quotas par défaut et la longueur de contexte disponible pour Claude 3.5 Sonnet.

Région Quotas Longueur de contexte disponible
us-east5 (Ohio) Jusqu'à 120 RPM, 555 000 TPM 200 000 jetons
asia-southeast1 (Singapore) Jusqu'à 35 RPM, 150 000 TPM 200 000 jetons
europe-west1 (Belgium) Jusqu'à 130 RPM, 600 000 TPM 200 000 jetons

Si vous souhaitez augmenter vos quotas pour l'IA générative sur Vertex AI, vous pouvez en faire la demande via la console Google Cloud . Pour en savoir plus sur les quotas, consultez Utiliser des quotas.