Sie können Ihre Claude-Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet vom Server gesendete Ereignisse (SSE, Server-Sent Events), um die Antwort schrittweise zu streamen.
Sie zahlen für Claude-Modelle, sobald Sie sie verwenden (Pay-as-you-go), oder Sie zahlen eine feste Gebühr, wenn Sie den bereitgestellten Durchsatz verwenden. Die Preise für Pay-as-you-go finden Sie auf der Preisseite für Vertex AI unter „Claude-Modelle von Anthropic“.
Verfügbare Claude-Modelle
Die folgenden Modelle sind von Anthropic zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein Claude-Modell zuzugreifen.
Claude 3.7 Sonnet
Claude 3.7 Sonnet ist das bisher intelligenteste Modell von Anthropic und das erste Claude-Modell, das erweitertes Denken bietet – die Fähigkeit, komplexe Probleme mit sorgfältiger, schrittweiser Argumentation zu lösen. Claude 3.7 Sonnet ist ein einzelnes Modell, bei dem Sie Geschwindigkeit und Qualität in Einklang bringen können, indem Sie zwischen Standarddenken für nahezu sofortige Antworten oder erweitertem Denken für erweiterte Argumentation wählen.
Weitere Informationen zum erweiterten Denken finden Sie in der Dokumentation von Anthropic.
Claude 3.7 Sonnet ist für die folgenden Anwendungsfälle optimiert:
- Agentic Coding: Claude 3.7 Sonnet ist der neueste Stand der Technik für agentisches Codieren und kann Aufgaben über den gesamten Softwareentwicklungszyklus hinweg erledigen – von der ersten Planung über Fehlerkorrekturen, Wartung bis hin zu großen Refactorings. Es bietet eine hervorragende Leistung sowohl bei der Planung als auch bei der Lösung komplexer Programmieraufgaben. Damit ist Claude 3.7 Sonnet die ideale Wahl für End-to-End-Softwareentwicklungsprozesse.
- Kundenservicemitarbeiter: Claude 3.7 Sonnet bietet eine bessere Anleitung, Toolauswahl, Fehlerkorrektur und erweiterte Argumentation für Kundenservicemitarbeiter und komplexe KI-Workflows.
- Computernutzung: Claude 3.7 Sonnet ist unser genauestes Modell für die Computernutzung. Damit können Entwickler Claude anweisen, Computer so zu verwenden, wie Menschen es tun.
- Inhaltserstellung und ‑analyse – Claude 3.7 Sonnet ist ein hervorragender Texter und versteht es, Nuancen und den Ton von Inhalten zu verstehen, um überzeugendere Inhalte zu erstellen und Inhalte auf einer tieferen Ebene zu analysieren.
- Visuelle Datenextraktion: Dank der robusten Bilderkennung von Claude 3.7 Sonnet ist es die richtige Wahl für Teams, die im Rahmen ihres KI-Workflows Rohdaten aus Visualisierungen wie Diagrammen oder Grafiken extrahieren möchten.
Zur Modellkarte Claude 3.7 Sonnet
Claude 3.5 Sonnet v2
Claude 3.5 Sonnet v2 ist ein hochmodernes Modell für reale Softwareentwicklungsaufgaben und von KI-Agenten zu übernehmende Aufgaben. Claude 3.5 Sonnet v2 bietet diese Fortschritte zum gleichen Preis und mit der gleichen Geschwindigkeit wie Claude 3.5 Sonnet.
Das aktualisierte Claude 3.5 Sonnet-Modell kann mit Tools interagieren, die eine Computer-Desktopumgebung manipulieren können. Weitere Informationen finden Sie in der Anthropic-Dokumentation.
Claude 3.5 Sonnet ist für die folgenden Anwendungsfälle optimiert:
- Aufgaben mit Entscheidungsspielraum und Toolnutzung: Claude 3.5 Sonnet bietet eine hervorragende Anleitung, Toolauswahl, Fehlerkorrektur und erweiterte Argumentation für Workflows mit Entscheidungsspielraum, die die Verwendung von Tools erfordern.
- Programmieren: Für Softwareentwicklungsaufgaben wie Codemigrationen, Codekorrekturen und Übersetzungen bietet Claude 3.5 Sonnet eine hervorragende Leistung bei der Planung und Lösung komplexer Programmieraufgaben.
- Antworten auf Dokumentfragen – Claude 3.5 Sonnet kombiniert eine gute Kontextwahrnehmung, fortgeschrittenes Denken und Synthese, um genaue und menschliche Antworten zu liefern.
- Visuelle Datenextraktion: Dank der führenden visuellen Fähigkeiten von Claude 3.5 Sonnet kann Claude 3.5 Sonnet im Rahmen von KI-Workflows Rohdaten aus visuellen Elementen wie Diagrammen oder Grafiken extrahieren.
- Inhaltserstellung und ‑analyse: Claude 3.5 Sonnet kann Nuancen und den Ton von Inhalten erkennen, ansprechendere Inhalte generieren und Inhalte auf einer tieferen Ebene analysieren.
Zur Modellkarte „Claude 3.5 Sonnet v2“
Claude 3.5 Haiku
Claude 3.5 Haiku, die nächste Generation des schnellsten und kostengünstigsten Modells von Anthropic, eignet sich optimal für Anwendungsfälle, bei denen es auf Geschwindigkeit und Kosteneinsparungen ankommt. Gegenüber seinem Vorgänger bietet es verbesserte Fähigkeiten. Claude 3.5 Haiku ist für die folgenden Anwendungsfälle optimiert:
- Codevervollständigung: Dank der kurzen Reaktionszeit und des Verständnisses für Programmiermuster eignet sich Claude 3.5 Haiku hervorragend für schnelle, präzise Codevorschläge und ‑vervollständigungen in Echtzeit-Entwicklungsworkflows.
- Interaktive Chatbots: Die verbesserte Argumentation und die natürlichen Konversationsfunktionen von Claude 3.5 Haiku eignen sich ideal für die Erstellung responsiver, ansprechender Chatbots, die eine große Anzahl von Nutzerinteraktionen effizient verarbeiten können.
- Datenextraktion und ‑beschriftung: Dank seiner verbesserten Analysefähigkeiten verarbeitet und kategorisiert Claude 3.5 Haiku Daten effizient. Das macht ihn für die schnelle Datenextraktion und automatisierte Beschriftung nützlich.
- Echtzeit-Inhaltsmoderation: Dank starker Argumentationskompetenz und guten Kenntnissen über Inhalte bietet Claude 3.5 Haiku eine schnelle und zuverlässige Inhaltsmoderation für Plattformen, die sofortige Reaktionszeiten im großen Maßstab erfordern.
Zur Modellkarte „Claude 3.5 Haiku“
Claude 3 Opus
Claude 3 Opus von Anthropic ist ein leistungsstarkes KI-Modell, das bei hochkomplexen Aufgaben Top-Level-Leistung bietet. Sie ist beeindruckend fließend und menschenähnliche Kenntnisse, um mit offenen Prompts und ungesehenen Szenarien zurechtzukommen. Claude 3 Opus ist für die folgenden Anwendungsfälle optimiert:
Aufgabenautomatisierung, z. B. interaktives Codieren und Planen oder Ausführen komplexer Aktionen über APIs und Datenbanken
Aufgaben aus Forschung und Entwicklung, z. B. Recherche, Brainstorming, Hypothesenentwicklung und Produkttests.
Strategieaufgaben wie die erweiterte Analyse von Diagrammen und Grafiken, Finanzen und Markttrends sowie Prognosen.
Vision-Aufgaben, z. B. die Verarbeitung von Bildern, um eine Textausgabe zurückzugeben. Außerdem können Diagramme, Grafiken, technische Diagramme, Berichte und andere visuelle Inhalte analysiert werden.
Claude 3 Haiku
Claude 3 Haiku ist das schnellste Visions- und Textmodell von Anthropic. Es ermöglicht nahezu sofortige Antworten auf einfache Abfragen und bietet nahtlose KI-Funktionen, die menschliche Interaktionen nachahmen.
Live-Kundeninteraktionen und -übersetzungen.
Inhalte moderieren, um verdächtiges Verhalten oder verdächtige Kundenanfragen zu erkennen.
Aufgaben zur Kosteneinsparung, darunter Inventarverwaltung und Wissensextraktion aus unstrukturierten Daten.
Vision-Aufgaben wie das Verarbeiten von Bildern für die Ausgabe von Texten oder die Analyse von Diagrammen, Grafiken, technischen Diagrammen, Berichten und anderen visuellen Inhalten.
Zur Claude 3 Haiku-Modellkarte
Claude 3.5 Sonnet
Claude 3.5 Sonnet von Anthropic übertrifft Claude 3 Opus in einer Vielzahl von Bewertungen von Anthropic mit der Geschwindigkeit und den Kosten des Mid-Tier-Modells von Anthropic, Claude 3 Sonnet. Claude 3.5 Sonnet ist für die folgenden Anwendungsfälle optimiert:
Programmieren, z. B. Schreiben, Bearbeiten und Ausführen von Code mit ausgefeilten Argumentations- und Fehlerbehebungsfunktionen.
Komplexe Anfragen vom Kundensupport bearbeiten, indem Sie den Nutzerkontext verstehen und mehrstufige Workflows orchestrieren.
Data Science und Analyse: Sie können unstrukturierte Daten nutzen und mehrere Tools einsetzen, um Erkenntnisse zu gewinnen.
Visuelle Verarbeitung, z. B. die Interpretation von Diagrammen und Grafiken, die visuelles Verständnis erfordern.
Inhalte in einem natürlicheren, menschlicheren Ton verfassen.
Zur Modellkarte Claude 3.5 Sonnet
Claude-Modelle verwenden
Sie können das Anthropic SDK oder curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Vertex AI-Endpunkt zu senden:
- Verwenden Sie
claude-3-7-sonnet@20250219
für Claude 3.7 Sonnet. - Verwenden Sie für Claude 3.5 Sonnet v2
claude-3-5-sonnet-v2@20241022
. - Verwenden Sie für Claude 3.5 Haiku
claude-3-5-haiku@20241022
. - Verwenden Sie für Claude 3 Opus
claude-3-opus@20240229
. - Verwenden Sie für Claude 3.5 Sonnet
claude-3-5-sonnet@20240620
. - Verwenden Sie für Claude 3 Haiku
claude-3-haiku@20240307
.
Anthropic Claude-Modellversionen müssen mit einem Suffix verwendet werden, das mit einem @
-Symbol beginnt (z. B. claude-3-7-sonnet@20250219
oder claude-3-5-haiku@20241022
), um ein einheitliches Verhalten zu gewährleisten.
Hinweise
Führen Sie die folgenden Schritte aus, um die Claude-Modelle von Anthropic mit Vertex AI zu verwenden. Die Vertex AI API (aiplatform.googleapis.com
) muss aktiviert sein, um Vertex AI verwenden zu können. Wenn Sie bereits ein Projekt mit aktivierter Vertex AI API haben, können Sie dieses Projekt verwenden, anstatt ein neues Projekt zu erstellen.
Sie müssen die erforderlichen Berechtigungen zum Aktivieren und Verwenden von Partnermodellen haben. Weitere Informationen finden Sie unter Erforderliche Berechtigungen erteilen.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Rufen Sie eine der folgenden Model Garden-Modellkarten auf und klicken Sie auf Aktivieren:
Anthropic SDK verwenden
Mit dem Anthropic Claude SDK können Sie API-Anfragen an die Anthropic Claude-Modelle senden. Weitere Informationen nachstehend:
- Claude Messages API-Referenz
- Anthropic Python API-Bibliothek
- Anthropic Vertex AI TypeScript API Library
Mit dem Anthropic Vertex SDK einen Streaming-Aufruf an ein Claude-Modell senden
Im folgenden Codebeispiel wird das Anthropic Vertex SDK verwendet, um einen Streamingaufruf an ein Claude-Modell auszuführen.
Vertex AI SDK für Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI SDK for Python API.
Mit dem Anthropic Vertex SDK einen unären Aufruf an ein Claude-Modell senden
Im folgenden Codebeispiel wird mit dem Anthropic Vertex SDK ein unärer Aufruf an ein Claude-Modell ausgeführt.
Vertex AI SDK für Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI SDK for Python API.
Curl-Befehl verwenden
Sie können einen curl-Befehl verwenden, um eine Anfrage an den Vertex AI-Endpunkt zu senden. Mit dem Curl-Befehl wird angegeben, welches unterstützte Claude-Modell Sie verwenden möchten.
Anthropic Claude-Modellversionen müssen mit einem Suffix verwendet werden, das mit einem @
-Symbol beginnt (z. B. claude-3-7-sonnet@20250219
oder claude-3-5-haiku@20241022
), um ein einheitliches Verhalten zu gewährleisten.
Im folgenden Thema wird beschrieben, wie Sie einen curl-Befehl erstellen. Außerdem finden Sie dort ein Beispiel für einen curl-Befehl.
REST
Senden Sie zum Testen eines Text-Prompts mit der Vertex AI API eine POST-Anfrage an den Endpunkt des Publisher-Modells.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- LOCATION: Eine Region, die Anthropic Claude-Modelle unterstützt.
- MODEL: Der Modellname, den Sie verwenden möchten.
- ROLE: Die einer Nachricht zugeordnete Rolle. Sie können
user
oderassistant
angeben. Die erste Nachricht muss die Rolleuser
verwenden. Claude-Modelle arbeiten mit abwechselndenuser
- undassistant
-Runden. Wenn die endgültige Nachricht die Rolleassistant
verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. So können Sie einen Teil der Antwort des Modells einschränken. - STREAM ist ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie
true
fest, um die Antwort zu streamen, undfalse
, um die Antwort auf einmal zurückzugeben. - CONTENT: Der Inhalt, z. B. Text der
user
- oderassistant
-Nachricht. - MAX_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa 3,5 Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.
Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.
- TOP_P (Optional):
Der Wert „Top-P“ ändert, wie das Modell Tokens für die Ausgabe auswählt. Die Tokens werden von den wahrscheinlichsten (siehe „Top-K“) bis zu den unwahrscheinlichsten Werten ausgewählt, bis die Summe ihrer Wahrscheinlichkeiten dem „Top-P“-Wert entspricht. Beispiel: Wenn die Tokens A, B und C eine Wahrscheinlichkeit von 0,3, 0,2 und 0,1 haben und der „Top-P“-Wert
0.5
ist, wählt das Modell anhand der Temperatur entweder A oder B als das nächste Token und C als Kandidaten ausschließen.Geben Sie einen niedrigeren Wert für weniger zufällige Antworten und einen höheren Wert für zufälligere Antworten an.
- TOP_K (Optional):
Der Wert „Top-K“ ändert, wie das Modell Tokens für die Ausgabe auswählt. Ein „Top-K“ von
1
bedeutet, dass das nächste ausgewählte Token unter den Tokens im Modell-Vokabular (auch als gierige Decodierung bezeichnet) am wahrscheinlichsten ist, während ein „Top-K“ von3
bedeutet, dass das nächste Token mithilfe der Temperatur aus den drei wahrscheinlichsten Tokens ausgewählt wird.Für jeden Tokenauswahlschritt werden die „Top-K“-Tokens mit den höchsten Wahrscheinlichkeiten abgetastet. Anschließend werden Tokens weiter auf der Grundlage von „Top-P“ gefiltert, wobei das endgültige Token mithilfe von Temperaturproben ausgewählt wird.
Geben Sie einen niedrigeren Wert für weniger zufällige Antworten und einen höheren Wert für zufälligere Antworten an.
- TYPE: Nur für Claude 3.7 Sonnet: Geben Sie
enable
an, um den erweiterten Denkmodus zu aktivieren. - BUDGET_TOKENS: Wenn Sie die erweiterte Denkweise aktivieren, müssen Sie die Anzahl der Tokens angeben, die das Modell für seine interne Argumentation als Teil der Ausgabe verwenden kann. Mit größeren Budgets können komplexe Probleme genauer analysiert und die Qualität der Antworten verbessert werden. Sie müssen einen Wert angeben, der größer oder gleich
1024
, aber kleiner alsMAX_TOKENS
ist.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
JSON-Text der Anfrage:
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM, "thinking": { "type": "TYPE", "budget_tokens": BUDGET_TOKENS } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
Beispiel: cURL-Befehls
MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
Toolnutzung (Funktionsaufrufe)
Die Claude-Modelle von Anthropic unterstützen Tools und Funktionsaufrufe, um die Funktionen eines Modells zu verbessern. Weitere Informationen finden Sie in der Anthropic-Dokumentation unter Tool-Nutzung – Übersicht.
In den folgenden Beispielen wird gezeigt, wie Sie Tools mit einem SDK oder einem Curl-Befehl verwenden. In den Beispielen wird nach offenen Restaurants in San Francisco gesucht.
Vertex AI SDK für Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI SDK for Python API.
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- LOCATION: Eine Region, die Anthropic Claude-Modelle unterstützt.
- MODEL: Der Modellname, der verwendet werden soll.
- ROLE: Die einer Nachricht zugeordnete Rolle. Sie können
user
oderassistant
angeben. Die erste Nachricht muss die Rolleuser
verwenden. Claude-Modelle arbeiten mit abwechselndenuser
- undassistant
-Runden. Wenn die endgültige Nachricht die Rolleassistant
verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. So können Sie einen Teil der Antwort des Modells einschränken. - STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie
true
fest, um die Antwort zu streamen, undfalse
, um die Antwort auf einmal zurückzugeben. - CONTENT: Der Inhalt, z. B. Text der
user
- oderassistant
-Nachricht. - MAX_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa 3,5 Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.
Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict
JSON-Text der Anfrage:
{ "anthropic_version": "vertex-2023-10-16", "max_tokens": MAX_TOKENS, "stream": STREAM, "tools": [ { "name": "text_search_places_api", "description": "Returns information about a set of places based on a string", "input_schema": { "type": "object", "properties": { "textQuery": { "type": "string", "description": "The text string on which to search" }, "priceLevels": { "type": "array", "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]", }, "openNow": { "type": "boolean", "description": "Describes whether a place is open for business at the time of the query." }, }, "required": ["textQuery"] } } ], "messages": [ { "role": "user", "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??" } ] }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
Vertex AI Studio verwenden
Für einige der Anthropic Claude-Modelle können Sie mit Vertex AI Studio schnell Prototypen für generative KI-Modelle in der Google Cloud Console erstellen und testen. Beispielsweise können Sie in Vertex AI Studio Antworten von Claude-Modellen mit anderen unterstützten Modellen wie Google Gemini vergleichen.
Weitere Informationen finden Sie unter Kurzanleitung: Mit Vertex AI Studio Textprompts an Gemini senden.
Verfügbarkeit: Anthropic Claude-Region
Claude 3.7 Sonnet ist in den folgenden Regionen verfügbar:
us-east5 (Ohio)
europe-west1 (Belgium)
us-east5 (Ohio)
europe-west1 (Belgium)
us-east5 (Ohio)
us-east5 (Ohio)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
Kontingente für Anthropic Claude und unterstützte Kontextlänge
Bei Claude-Modellen gilt ein Kontingent für jede Region, in der das Modell verfügbar ist. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) und Tokens pro Minute (Tokens per minute, TPM) angegeben. TPM umfasst sowohl Eingabe- als auch Ausgabetokens.
Um die Gesamtleistung des Dienstes und die ordnungsgemäße Nutzung zu gewährleisten, können die maximalen Kontingente je nach Konto variieren und in einigen Fällen kann der Zugriff eingeschränkt werden. Sie finden die Kontingente Ihres Projekts in der Google Cloud Console auf der Seite Kontingente und Systemlimits. Außerdem müssen Sie die folgenden Kontingente haben:
Online prediction requests per base model per minute per region per base_model
Online prediction tokens per minute per base model per minute per region per base_model
Claude 3.7 Sonnet
In der folgenden Tabelle sind die Standardkontingente und die unterstützte Kontextlänge für Claude 3.7 Sonnet aufgeführt.
Region | Kontingente | Unterstützte Kontextlänge |
---|---|---|
us-east5 (Ohio) |
Bis zu 55 Abfragen pro Minute, 500.000 TPM | 200.000 Tokens |
europe-west1 (Belgium) |
Bis zu 40 Abfragen pro Minute, 300.000 TPM | 200.000 Tokens |
Claude 3.5 Sonnet v2
In der folgenden Tabelle sind die Standardkontingente und die unterstützte Kontextlänge für Claude 3.5 Sonnet v2 aufgeführt.
Region | Kontingente | Unterstützte Kontextlänge |
---|---|---|
us-east5 (Ohio) |
Bis zu 90 Abfragen pro Minute, 540.000 TPM | 200.000 Tokens |
europe-west1 (Belgium) |
Bis zu 55 Abfragen pro Minute, 330.000 TPM | 200.000 Tokens |
Claude 3.5 Haiku
In der folgenden Tabelle sind die Standardkontingente und die unterstützte Kontextlänge für Claude 3.5 Haiku aufgeführt.
Region | Kontingente | Unterstützte Kontextlänge |
---|---|---|
us-east5 (Ohio) |
Bis zu 80 Abfragen pro Minute, 350.000 TPM | 200.000 Tokens |
Claude 3 Opus
In der folgenden Tabelle sind die Standardkontingente und die unterstützte Kontextlänge für Claude 3 Opus aufgeführt.
Region | Kontingente | Unterstützte Kontextlänge |
---|---|---|
us-east5 (Ohio) |
Bis zu 20 Abfragen pro Minute, 105.000 TPM | 200.000 Tokens |
Claude 3 Haiku
In der folgenden Tabelle sind die Standardkontingente und die unterstützte Kontextlänge für Claude 3 Haiku aufgeführt.
Region | Kontingente | Unterstützte Kontextlänge |
---|---|---|
us-east5 (Ohio) |
Bis zu 245 Abfragen pro Minute, 600.000 TPM | 200.000 Tokens |
asia-southeast1 (Singapore) |
Bis zu 70 Abfragen pro Minute, 174.000 TPM | 200.000 Tokens |
europe-west1 (Belgium) |
Bis zu 75 Abfragen pro Minute, 181.000 TPM | 200.000 Tokens |
Claude 3.5 Sonnet
In der folgenden Tabelle sind die Standardkontingente und die unterstützte Kontextlänge für Claude 3.5 Sonnet aufgeführt.
Region | Kontingente | Unterstützte Kontextlänge |
---|---|---|
us-east5 (Ohio) |
Bis zu 120 Abfragen pro Minute, 555.000 TPM | 200.000 Tokens |
asia-southeast1 (Singapore) |
Bis zu 35 Abfragen pro Minute, 150.000 TPM | 200.000 Tokens |
europe-west1 (Belgium) |
Bis zu 130 Abfragen pro Minute, 600.000 TPM | 200.000 Tokens |
Wenn Sie eines der Kontingente für die generative AI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie unter Mit Kontingenten arbeiten.