Diese Seite wurde von der Cloud Translation API übersetzt.

Vorhersagen mit Claude-Modellen anfordern

Sie können das Anthropic SDK oder curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Vertex AI-Endpunkt zu senden:

Verwenden Sie für Claude Opus 4 claude-opus-4@20250514.
Verwenden Sie für Claude Sonnet 4 claude-sonnet-4@20250514.
Verwenden Sie für Claude 3.7 Sonnet claude-3-7-sonnet@20250219.
Verwenden Sie für Claude 3.5 Sonnet v2 claude-3-5-sonnet-v2@20241022.
Verwenden Sie für Claude 3.5 Haiku claude-3-5-haiku@20241022.
Für Claude 3.5 Sonnet verwenden Sie claude-3-5-sonnet@20240620.
Verwenden Sie für Claude 3 Opus claude-3-opus@20240229.
Verwenden Sie für Claude 3 Haiku claude-3-haiku@20240307.

Anthropic Claude-Modellversionen müssen mit einem Suffix verwendet werden, das mit dem Symbol @ beginnt (z. B. claude-3-7-sonnet@20250219 oder claude-3-5-haiku@20241022), um einheitliches Verhalten zu gewährleisten.

Hinweise

Führen Sie die folgenden Schritte aus, um die Anthropic Claude-Modelle mit Vertex AI zu verwenden. Die Vertex AI API (aiplatform.googleapis.com) muss aktiviert sein, um Vertex AI verwenden zu können. Wenn Sie bereits ein Projekt mit aktivierter Vertex AI API haben, können Sie dieses Projekt verwenden, anstatt ein neues Projekt zu erstellen.

Sie müssen die erforderlichen Berechtigungen zum Aktivieren und Verwenden von Partnermodellen haben. Weitere Informationen finden Sie unter Erforderliche Berechtigungen erteilen.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

Rufen Sie eine der folgenden Model Garden-Modellkarten auf und klicken Sie auf Aktivieren:
Anthropic empfiehlt, das 30-Tage-Logging Ihrer Prompt- und Vervollständigungsaktivitäten zu aktivieren, um jeglichen Modellmissbrauch aufzuzeichnen. Informationen zum Aktivieren des Loggings finden Sie unter [Anfragen und Antworten protokollieren][logging].

Anthropic SDK verwenden

Sie können API-Anfragen an die Anthropic Claude-Modelle mit dem Anthropic Claude SDK senden. Weitere Informationen nachstehend:

Mit dem Anthropic Vertex SDK einen Streaming-Aufruf an ein Claude-Modell senden

Im folgenden Codebeispiel wird das Anthropic Vertex SDK verwendet, um einen Streaming-Aufruf an ein Claude-Modell zu senden.

Python

Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.

Im folgenden Beispiel werden regionale Endpunkte verwendet. Informationen zur Verwendung des globalen Endpunkts finden Sie unter Globalen Endpunkt angeben.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
result = []

with client.messages.stream(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)
        result.append(text)

# Example response:
# Here's a simple recipe for delicious banana bread:
# Ingredients:
# - 2-3 ripe bananas, mashed
# - 1/3 cup melted butter
# ...
# ...
# 8. Bake for 50-60 minutes, or until a toothpick inserted into the center comes out clean.
# 9. Let cool in the pan for a few minutes, then remove and cool completely on a wire rack.

Mit dem Anthropic Vertex SDK einen unären Aufruf an ein Claude-Modell senden

Im folgenden Codebeispiel wird das Anthropic Vertex SDK verwendet, um einen unären Aufruf an ein Claude-Modell zu senden.

Python

Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.

Im folgenden Beispiel werden regionale Endpunkte verwendet. Informationen zur Verwendung des globalen Endpunkts finden Sie unter Globalen Endpunkt angeben.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_0162rhgehxa9rvJM5BSVLZ9j",
#   "content": [
#     {
#       "text": "Here's a simple recipe for delicious banana bread:\n\nIngredients:\n- 2-3 ripe bananas...
#   ...

curl-Befehl verwenden

Sie können einen curl-Befehl verwenden, um eine Anfrage an den Vertex AI-Endpunkt zu senden. Mit dem curl-Befehl wird angegeben, welches unterstützte Claude-Modell Sie verwenden möchten.

Im folgenden Thema wird beschrieben, wie Sie einen curl-Befehl erstellen. Außerdem ist ein Beispiel für einen curl-Befehl enthalten.

REST

Senden Sie zum Testen eines Text-Prompts mit der Vertex AI API eine POST-Anfrage an den Endpunkt des Publisher-Modells.

Im folgenden Beispiel werden regionale Endpunkte verwendet. Informationen zur Verwendung des globalen Endpunkts finden Sie unter Globalen Endpunkt angeben.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION: Eine Region, die Anthropic Claude-Modelle unterstützt. Informationen zur Verwendung des globalen Endpunkts finden Sie unter Globalen Endpunkt angeben.
MODEL: Der Modellname, den Sie verwenden möchten.
ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Claude-Modelle arbeiten mit abwechselnden user- und assistant-Runden. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. Damit können Sie einen Teil der Antwort des Modells einschränken.
STREAM ist ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie true fest, um die Antwort zu streamen, und false, um die Antwort auf einmal zurückzugeben.
CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.
MAX_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa 3,5 Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.
Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.
TOP_P (Optional): Der Wert „Top-P“ ändert, wie das Modell Tokens für die Ausgabe auswählt. Tokens werden vom wahrscheinlichsten bis zum am wenigsten wahrscheinlichen Token ausgewählt, bis die Summe ihrer Wahrscheinlichkeiten dem Wert von „Top-P“ entspricht. Beispiel: Wenn die Tokens A, B und C eine Wahrscheinlichkeit von 0,3, 0,2 und 0,1 haben und der „Top-P“-Wert 0.5 ist, wählt das Modell anhand der Temperatur entweder A oder B als das nächste Token und C als Kandidaten ausschließen.
Geben Sie einen niedrigeren Wert für weniger zufällige Antworten und einen höheren Wert für zufälligere Antworten an.
TOP_K (Optional): Der Wert „Top-K“ ändert, wie das Modell Tokens für die Ausgabe auswählt. Ein „Top-K“ von 1 bedeutet, dass das nächste ausgewählte Token unter den Tokens im Modell-Vokabular (auch als gierige Decodierung bezeichnet) am wahrscheinlichsten ist, während ein „Top-K“ von3 bedeutet, dass das nächste Token mithilfe der Temperatur aus den drei wahrscheinlichsten Tokens ausgewählt wird.
Für jeden Tokenauswahlschritt werden die „Top-K“-Tokens mit den höchsten Wahrscheinlichkeiten abgetastet. Anschließend werden Tokens weiter auf der Grundlage von „Top-P“ gefiltert, wobei das endgültige Token mithilfe von Temperaturproben ausgewählt wird.

Geben Sie einen niedrigeren Wert für weniger zufällige Antworten und einen höheren Wert für zufälligere Antworten an.
TYPE: Für Claude 3.7 Sonnet und spätere Claude-Modelle geben Sie enable an, um den erweiterten Denkmodus zu aktivieren.
BUDGET_TOKENS: Wenn Sie die erweiterte Denkweise aktivieren, müssen Sie die Anzahl der Tokens angeben, die das Modell für seine interne Argumentation als Teil der Ausgabe verwenden kann. Mit einem größeren Budget können komplexere Probleme gründlicher analysiert und die Qualität der Antworten verbessert werden. Sie müssen einen Wert angeben, der größer oder gleich 1024, aber kleiner als MAX_TOKENS ist.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict

JSON-Text der Anfrage:

{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": STREAM,
  "thinking": {
    "type": "TYPE",
    "budget_tokens": BUDGET_TOKENS
  }
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu haben Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt, die Sie automatisch bei der gcloud CLI anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"

PowerShell

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu führen Sie gcloud init oder gcloud auth login aus. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Antwort

{
  "id":"msg_012NDLxqh6LsztWCU7zTb14C",
  "type":"message",
  "role":"assistant",
  "content":[{
    "type":"text",
    "text":"Hello! Nice to meet you."
  }],
  "model":"claude-2.1",
  "stop_reason":"end_turn",
  "stop_sequence":null,
  "usage":{
    "input_tokens":11,
    "output_tokens":11
  }
}

Beispiel: cURL-Befehls

MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [{
    "role": "user",
    "content": "Hello!"
  }],
  "max_tokens": 50,
  "stream": true}'

Tool-Nutzung (Funktionsaufrufe)

Die Anthropic Claude-Modelle unterstützen Tools und Funktionsaufrufe, um die Fähigkeiten eines Modells zu verbessern. Weitere Informationen finden Sie in der Anthropic-Dokumentation unter Tool use overview (Übersicht zur Verwendung von Tools).

Die folgenden Beispiele zeigen, wie Sie Tools mit einem SDK oder einem curl-Befehl verwenden. In den Beispielen wird nach Restaurants in der Nähe in San Francisco gesucht, die geöffnet sind.

Python

Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.

Im folgenden Beispiel werden regionale Endpunkte verwendet. Informationen zur Verwendung des globalen Endpunkts finden Sie unter Globalen Endpunkt angeben.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'
from anthropic import AnthropicVertex

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    tools=[
        {
            "name": "text_search_places_api",
            "description": "returns information about a set of places based on a string",
            "input_schema": {
                "type": "object",
                "properties": {
                    "textQuery": {
                        "type": "string",
                        "description": "The text string on which to search",
                    },
                    "priceLevels": {
                        "type": "array",
                        "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
                    },
                    "openNow": {
                        "type": "boolean",
                        "description": "whether those places are open for business.",
                    },
                },
                "required": ["textQuery"],
            },
        }
    ],
    messages=[
        {
            "role": "user",
            "content": "What are some affordable and good Italian restaurants open now in San Francisco??",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_018pk1ykbbxAYhyWUdP1bJoQ",
#   "content": [
#     {
#       "text": "To answer your question about affordable and good Italian restaurants
#       that are currently open in San Francisco....
# ...

REST

Im folgenden Beispiel werden regionale Endpunkte verwendet. Informationen zur Verwendung des globalen Endpunkts finden Sie unter Globalen Endpunkt angeben.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LOCATION: Eine Region, die Anthropic Claude-Modelle unterstützt. Informationen zur Verwendung des globalen Endpunkts finden Sie unter Globalen Endpunkt angeben.
MODEL: Der Modellname, der verwendet werden soll.
ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Claude-Modelle arbeiten mit abwechselnden user- und assistant-Runden. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. Damit können Sie einen Teil der Antwort des Modells einschränken.
STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie true fest, um die Antwort zu streamen, und false, um die Antwort auf einmal zurückzugeben.
CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.
MAX_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa 3,5 Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.
Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict

JSON-Text der Anfrage:


{
  "anthropic_version": "vertex-2023-10-16",
  "max_tokens": MAX_TOKENS,
  "stream": STREAM,
  "tools": [
    {
      "name": "text_search_places_api",
      "description": "Returns information about a set of places based on a string",
      "input_schema": {
        "type": "object",
        "properties": {
          "textQuery": {
            "type": "string",
            "description": "The text string on which to search"
          },
          "priceLevels": {
            "type": "array",
            "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
          },
          "openNow": {
            "type": "boolean",
            "description": "Describes whether a place is open for business at
            the time of the query."
          },
        },
        "required": ["textQuery"]
      }
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??"
    }
  ]
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Antwort

{
  "id": "msg_vrtx_01ErR7VMNQdnvDt3n7Nmc4ER",
  "type": "message",
  "role": "assistant",
  "model": "claude-3-opus-20240229",
  "content": [
    {
      "type": "text",
      "text": "\nTo find affordable and good Italian restaurants that are currently open in San Francisco, the text_search_places_api tool seems most relevant. \n\nThe required textQuery parameter can be inferred as \"Italian restaurants in San Francisco\", since the user specified Italian restaurants and the location of San Francisco.\n\nTwo optional parameters are also relevant:\nopenNow - this should be set to true, since the user specified they want restaurants open now\npriceLevels - to find affordable restaurants, this can be set to [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE]\n\nWith the textQuery provided and the two optional parameters that can help narrow the results to match the user's criteria, we have enough information to make a good call to the text_search_places_api tool to try to answer the user's request.\n"
    },
    {
      "type": "tool_use",
      "id": "toolu_vrtx_01TAJCTkxe8HhRoaQ69N4ouP",
      "name": "text_search_places_api",
      "input": {
        "textQuery": "Italian restaurants in San Francisco",
        "openNow": true,
        "priceLevels": [
          "PRICE_LEVEL_INEXPENSIVE",
          "PRICE_LEVEL_MODERATE"
        ]
      }
    }
  ],
  "stop_reason": "tool_use",
  "stop_sequence": null,
  "usage": {
    "input_tokens": 727,
    "output_tokens": 308
  }
}

Vertex AI Studio verwenden

Bei einigen Anthropic Claude-Modellen können Sie mit Vertex AI Studio schnell Prototypen für generative KI-Modelle erstellen und diese in der Google Cloud Console testen. Sie können beispielsweise mit Vertex AI Studio Claude-Modellantworten mit anderen unterstützten Modellen wie Google Gemini vergleichen.

Weitere Informationen finden Sie unter Kurzanleitung: Text-Prompts mit Vertex AI Studio an Gemini senden.

Kontingente für Anthropic Claude und Verfügbarkeit in Regionen

Für Claude-Modelle gelten regionale Kontingente und für Modelle, die einen globalen Endpunkt unterstützen, ein globales Kontingent. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) und Tokens pro Minute (Tokens per minute, TPM) angegeben. TPM umfasst sowohl Eingabe- als auch Ausgabetokens.

Um die allgemeine Dienstleistung und die zulässige Nutzung aufrechtzuerhalten, können die maximalen Kontingente je nach Konto variieren. In einigen Fällen kann der Zugriff eingeschränkt werden. Die Kontingente Ihres Projekts finden Sie in der Google Cloud Console auf der Seite Kontingente und Systemlimits. Außerdem müssen die folgenden Kontingente verfügbar sein:

online_prediction_requests_per_base_model und global_online_prediction_requests_per_base_model definieren Ihr Kontingent für Abfragen pro Minute.
Für TPM gibt es drei Kontingentwerte, die für bestimmte Modelle gelten:
- Bei Modellen, bei denen Eingabe- und Ausgabetokens zusammengezählt werden, wird das TPM-Kontingent des Modells durch online_prediction_tokens_per_minute_per_base_model und global_online_prediction_tokens_per_minute_per_base_model definiert.
- Bei Modellen, bei denen Eingabe- und Ausgabetokens separat gezählt werden, definieren online_prediction_input_tokens_per_minute_per_base_model und global_online_prediction_input_tokens_per_minute_per_base_model das TPM-Kontingent für die Eingabe und online_prediction_output_tokens_per_minute_per_base_model und global_online_prediction_output_tokens_per_minute_per_base_model das TPM-Kontingent für die Ausgabe.
Welche Modelle Eingabe- und Ausgabetokens separat zählen, erfahren Sie hier.

Eingabetokens

In der folgenden Liste werden die Eingabetokens definiert, die auf Ihr TPM-Kontingent für Eingaben angerechnet werden können. Die Anzahl der Eingabetokens, die von den einzelnen Modellen gezählt werden, kann variieren. Informationen dazu, welche Eingabetokens für ein Modell gezählt werden, finden Sie unter Kontingente nach Modell und Region.

Eingabetokens umfassen alle Eingabetokens, einschließlich Tokens für das Lesen und Schreiben des Cache.
Nicht im Cache gespeicherte Eingabetokens umfasst nur die Eingabetokens, die nicht aus einem Cache gelesen wurden (Cache-Lesetokens).
Cache-Schreibvorgangstokens umfasst Tokens, die zum Erstellen oder Aktualisieren eines Caches verwendet wurden.

Kontingente nach Modell und Region

In der folgenden Tabelle sind die Standardkontingente und die unterstützte Kontextlänge für jedes Modell in jeder Region aufgeführt.

Modell	Region	Kontingente	Kontextlänge
Claude Opus 4
	`us-east5`	QPM: 25 Eingabe-TPM: 60.000 nicht im Cache und Cache-Schreibvorgang Ausgabe-TPM: 6.000	200.000
	`global endpoint`	QPM: 25 Eingabe-TPM: 60.000 nicht im Cache und Cache-Schreibvorgang Ausgabe-TPM: 6.000	200.000
Claude Sonnet 4
	`us-east5`	QPM: 35 Eingabe-TPM: 280.000 uncached and cache write (nicht im Cache und Cache-Schreibvorgang) Ausgabe-TPM: 20.000	200.000
	`europe-west1`	QPM: 25 TPM eingeben: 180.000 uncached and cache write (nicht im Cache und Cache-Schreibvorgang) Ausgabe-TPM: 20.000	200.000
	`asia-east1`	QPM: 70 Eingabe-TPM: 550.000 nicht im Cache und Cache-Schreibvorgang Ausgabe-TPM: 50.000	200.000
	`global endpoint`	QPM: 35 Eingabe-TPM: 276.000 nicht im Cache und Cache-Schreibvorgang Ausgabe-TPM: 24.000	200.000
Claude 3.7 Sonnet
	`us-east5`	QPM: 55 TPM: 500.000 (nicht im Cache gespeicherte Ein- und Ausgabe)	200.000
	`europe-west1`	QPM: 40 TPM: 300.000 (nicht im Cache gespeicherte Ein- und Ausgabe)	200.000
	`global endpoint`	QPM: 35 TPM: 300.000 (nicht im Cache gespeicherte Ein- und Ausgabe)	200.000
Claude 3.5 Sonnet v2
	`us-east5`	QPM: 90 TPM: 540.000 (Ein- und Ausgabe)	200.000
	`europe-west1`	QPM: 55 TPM: 330.000 (Ein- und Ausgabe)	200.000
	`global endpoint`	QPM: 25 TPM: 140.000 (Ein- und Ausgabe)	200.000
Claude 3.5 Haiku
Claude 3.5 Haiku	`us-east5`	QPM: 80 TPM: 350.000 (Ein- und Ausgabe)	200.000
Claude 3.5 Sonett
	`us-east5`	QPM: 80 TPM: 350.000 (Ein- und Ausgabe)	200.000
	`europe-west1`	QPM: 130 TPM: 600.000 (Ein- und Ausgabe)	200.000
	`asia-southeast1`	QPM: 35 TPM: 150.000 (Ein- und Ausgabe)	200.000
Claude 3 Opus
Claude 3 Opus	`us-east5`	QPM: 20 TPM: 105.000 (Ein- und Ausgabe)	200.000
Claude 3 Haiku
	`us-east5`	QPM: 245 TPM: 600.000 (Ein- und Ausgabe)	200.000
	`europe-west1`	QPM: 75 TPM: 181.000 (Ein- und Ausgabe)	200.000
	`asia-southeast1`	QPM: 70 TPM: 174.000 (Ein- und Ausgabe)	200.000

Wenn Sie eines der Kontingente für generative KI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie unter Mit Kontingenten arbeiten.

Vorhersagen mit Claude-Modellen anfordern Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hinweise

Anthropic SDK verwenden

Mit dem Anthropic Vertex SDK einen Streaming-Aufruf an ein Claude-Modell senden

Python

Mit dem Anthropic Vertex SDK einen unären Aufruf an ein Claude-Modell senden

Python

curl-Befehl verwenden

REST

curl

PowerShell

Antwort

Beispiel: cURL-Befehls

Tool-Nutzung (Funktionsaufrufe)

Python

REST

curl

PowerShell

Antwort

Vertex AI Studio verwenden

Kontingente für Anthropic Claude und Verfügbarkeit in Regionen

Eingabetokens

Kontingente nach Modell und Region

Vorhersagen mit Claude-Modellen anfordern