Google-Modelle
Der bereitgestellte Durchsatz wird nur für Modelle unterstützt, die Sie direkt aus Ihrem Projekt mit der spezifischen Modell-ID und nicht mit einem Modellalias aufrufen. Wenn Sie Provisioned Throughput verwenden möchten, um API-Aufrufe an ein Modell zu senden, müssen Sie die spezifische Modellversions-ID (z. B. gemini-2.0-flash-001
) und nicht einen Modellversionsalias verwenden.
Außerdem wird Provisioned Throughput nicht für Modelle unterstützt, die von anderen Vertex AI-Produkten wie Vertex AI Agents und Vertex AI Search aufgerufen werden. Wenn Sie beispielsweise API-Aufrufe an Gemini 2.0 Flash ausführen, während Sie Vertex AI Search verwenden, wird durch Ihre Bestellung für bereitgestellten Durchsatz für Gemini 2.0 Flash nicht garantiert, dass die von Vertex AI Search ausgeführten Aufrufe erfolgreich sind.
In der folgenden Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Google-Modelle aufgeführt, die Provisioned Throughput unterstützen. Der Durchsatz pro Sekunde wird als Eingabezeichen des Prompts und als generierte Ausgabe für alle Anfragen pro Sekunde definiert.
Im SDK-Tokenizer oder in der countTokens API erfahren Sie mehr zu den für Ihre Arbeitslast erforderlichen Tokens.
Modell | Durchsatz pro Sekunde pro GSU | Einheiten | Mindestkaufsteigerung für GSUs | Abnahmeraten |
---|---|---|---|---|
Gemini 2.5 Flash-Lite Neueste unterstützte Version: |
8070 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 5 Tokens 1 Ausgabetext-Token = 4 Tokens |
Gemini 2.5 Pro Neueste unterstützte Version: |
650 | Tokens | 1 |
Weniger als oder gleich 200.000 Eingabetokens 1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 1 Token 1 Ausgabetext-Token = 8 Tokens 1 Ausgabetext-Token für die Begründung = 8 Tokens Mehr als 200.000 Eingabetokens 1 Eingabetext-Token = 2 Tokens 1 Eingabebild-Token = 2 Tokens 1 Eingabevideo-Token = 2 Tokens 1 Eingabe-Audio-Token = 2 Tokens 1 Ausgabetext-Token = 12 Tokens 1 Ausgabetext-Token für die Begründung = 12 Tokens |
Gemini 2.5 Flash Neueste unterstützte Version: |
2690 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 4 Tokens 1 Ausgabetext-Token für Antwort = 9 Tokens 1 Ausgabetext-Token für Begründung = 9 Tokens |
Gemini 2.0 Flash Neueste unterstützte Version: |
3360 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 7 Tokens 1 Ausgabetext-Token = 4 Tokens |
Gemini 2.0 Flash-Lite Neueste unterstützte Version: |
6720 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
Imagen 3 | 0,025 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
Imagen 3 Fast | 0,05 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
Imagen 2 | 0,05 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
Imagen 2 Edit | 0,05 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
MedLM Medium | 2.000 | Zeichen | 1 | 1 Eingabezeichen = 1 Zeichen 1 Ausgabezeichen = 2 Zeichen |
MedLM Large | 200 | Zeichen | 1 | 1 Eingabezeichen = 1 Zeichen 1 Ausgabezeichen = 3 Zeichen |
MedLM Large 1.5 | 200 | Zeichen | 1 | 1 Eingabezeichen = 1 Zeichen 1 Ausgabezeichen = 3 Zeichen |
Sie können ein Upgrade auf neue Modelle durchführen, sobald diese verfügbar sind. Informationen zur Verfügbarkeit von Modellen und zu den Einstellungsdaten finden Sie unter Google-Modelle.
Weitere Informationen zu unterstützten Standorten finden Sie unter Verfügbare Standorte.
Unterstützung globaler Endpunktmodelle
Der bereitgestellte Durchsatz unterstützt den globalen Endpunkt für die folgenden Modelle:
Modell | Neueste unterstützte Modellversion |
---|---|
Gemini 2.5 Flash-Lite (Vorschau) | gemini-2.5-flash-lite-preview-06-17 |
Gemini 2.5 Pro | gemini-2.5-pro |
Gemini 2.5 Flash | gemini-2.5-flash |
Gemini 2.0 Flash | gemini-2.0-flash-001 |
Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
Traffic, der das Kontingent für den bereitgestellten Durchsatz überschreitet, verwendet standardmäßig den globalen Endpunkt.
Wenn Sie Provisioned Throughput dem globalen Endpunkt eines Modells zuweisen möchten, wählen Sie global
als Region aus, wenn Sie Provisioned Throughput bestellen.
Unterstützung für überwacht feinabgestimmte Modelle
Folgendes wird für Google-Modelle unterstützt, die überwachte Feinabstimmung unterstützen:
Der bereitgestellte Durchsatz kann sowohl auf Basismodelle als auch auf Versionen dieser Basismodelle angewendet werden, die mit überwachtem Lernen feinabgestimmt wurden.
Endpunkte für überwacht feinabgestimmte Modelle und das entsprechende Basismodell werden auf dasselbe Kontingent für bereitgestellten Durchsatz angerechnet.
Wenn Sie beispielsweise bereitgestellten Durchsatz für
gemini-2.0-flash-lite-001
für ein bestimmtes Projekt erwerben, werden Anfragen, die von überwachten, feinabgestimmten Versionen vongemini-2.0-flash-lite-001
stammen, die in diesem Projekt erstellt wurden, priorisiert. Verwenden Sie den entsprechenden Header, um das Traffic-Verhalten zu steuern.
Partnermodelle
In der folgenden Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Partnermodelle aufgeführt, die Provisioned Throughput unterstützen. Claude-Modelle werden in Tokens pro Sekunde gemessen. Dieser Wert wird als Gesamtzahl der Eingabe- und Ausgabetokens für alle Anfragen pro Sekunde definiert.
Modell | Durchsatz pro GSU (Tokens/s) | Mindestkauf von GSUs | GSU-Kaufsteigerung | Abnahmeraten |
---|---|---|---|---|
Claude Opus 4 von Anthropic | 70 | 35 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Claude Sonnet 4 von Anthropic | 350 | 25 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Claude 3.7 Sonnet von Anthropic | 350 | 25 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Anthropic Claude 3.5 Sonnet v2 | 350 | 25 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Claude 3.5 Haiku von Anthropic | 2.000 | 10 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Claude 3 Opus von Anthropic | 70 | 35 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Claude 3 Haiku von Anthropic | 4.200 | 5 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Claude 3.5 Sonnet von Anthropic | 350 | 25 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Informationen zu unterstützten Standorten finden Sie unter Verfügbarkeit: Anthropic Claude-Region. Wenn Sie Provisioned Throughput für Anthropic-Modelle bestellen möchten, wenden Sie sich an Ihren Google Cloud Kundenbetreuer.