Google-Modelle
Der bereitgestellte Durchsatz wird nur für Modelle unterstützt, die Sie direkt über Ihr Projekt mit der jeweiligen Modell-ID und nicht mit einem Modellalias aufrufen. Wenn Sie den bereitgestellten Durchsatz zum Ausführen von API-Aufrufen für ein Modell verwenden möchten, müssen Sie die ID der Modellversion (z. B. gemini-2.0-flash-001
) und keinen Alias der Modellversion angeben.
Außerdem werden mit dem bereitgestellten Durchsatz keine Modelle unterstützt, die von anderen Vertex AI-Produkten wie Vertex AI Agents und Vertex AI Search aufgerufen werden. Wenn Sie beispielsweise API-Aufrufe an Gemini 2.0 Flash senden, während Sie Vertex AI Search verwenden, ist nicht garantiert, dass die von Vertex AI Search gesendeten Aufrufe mit Ihrem bereitgestellten Durchsatz für Gemini 2.0 Flash übereinstimmen.
In der folgenden Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Google-Modelle aufgeführt, die Provisioned Throughput unterstützen. Der Durchsatz pro Sekunde wird als Prompteingabe und generierte Ausgabe für alle Anfragen pro Sekunde definiert.
Im SDK-Tokenizer oder in der countTokens API erfahren Sie, wie viele Tokens für Ihre Arbeitslast erforderlich sind.
Modell | Durchsatz pro Sekunde und GSU | Einheiten | Mindestkaufsteigerung für GSUs | Abnahmeraten |
---|---|---|---|---|
Gemini 2.5 Pro | 540 | Tokens | 1 |
Weniger als oder gleich 200.000 Eingabetokens: 1 Texttoken für die Eingabe = 1 Token 1 Bildtoken für die Eingabe = 1 Token 1 Videotoken für die Eingabe = 1 Token 1 Audiotoken für die Eingabe = 1 Token 1 Texttoken für die Ausgabe = 8 Tokens 1 Texttoken für die Begründung = 8 Tokens Mehr als 200.000 Eingabetokens: 1 Texttoken für die Eingabe = 2 Tokens 1 Bildtoken für die Eingabe = 2 Tokens 1 Videotoken für die Eingabe = 2 Tokens 1 Audiotoken für die Eingabe = 2 Tokens 1 Texttoken für die Ausgabe = 12 Tokens 1 Texttoken für die Begründung = 12 Tokens |
Gemini 2.5 Flash | 4480 | Tokens | 1 |
1 Eingabe-Texttoken = 1 Token 1 Eingabe-Bildtoken = 1 Token 1 Eingabe-Videotoken = 1 Token 1 Eingabe-Audiotoken = 7 Tokens 1 Texttoken für die Ausgabeantwort = 4 Tokens 1 Texttoken für die Ausgabe einer Denkantwort = 24 Tokens 1 Texttoken für die Ausgabe einer Begründung = 24 Tokens |
Gemini 2.0 Flash | 3360 | Tokens | 1 |
1 Eingabe-Texttoken = 1 Token 1 Eingabe-Bildtoken = 1 Token 1 Eingabe-Videotoken = 1 Token 1 Eingabe-Audiotoken = 7 Tokens 1 Ausgabe-Texttoken = 4 Tokens |
Gemini 2.0 Flash-Lite | 6720 | Tokens | 1 |
1 Texttoken für Eingabe = 1 Token 1 Bildtoken für Eingabe = 1 Token 1 Videotoken für Eingabe = 1 Token 1 Audiotoken für Eingabe = 1 Token 1 Texttoken für Ausgabe = 4 Tokens |
Imagen 3 | 0,025 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
Imagen 3 Fast | 0,05 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
Imagen 2 | 0,05 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
Imagen 2 – Bearbeiten | 0,05 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
MedLM medium | 2.000 | Zeichen | 1 | 1 Eingabezeichen = 1 Zeichen 1 Ausgabezeichen = 2 Zeichen |
MedLM large | 200 | Zeichen | 1 | 1 Eingabezeichen = 1 Zeichen 1 Ausgabezeichen = 3 Zeichen |
MedLM large 1.5 | 200 | Zeichen | 1 | 1 Eingabezeichen = 1 Zeichen 1 Ausgabezeichen = 3 Zeichen |
Weitere Informationen zu unterstützten Standorten finden Sie unter Verfügbare Standorte.
Sie können ein Upgrade auf neue Modelle durchführen, sobald sie verfügbar sind. Informationen zur Verfügbarkeit und Einstellung von Modellen finden Sie unter Google-Modelle.
Unterstützung für überwachte, optimierte Modelle
Für Google-Modelle, die die überwachte Feinabstimmung unterstützen, ist Folgendes möglich:
Der bereitgestellte Durchsatz kann sowohl auf Basismodelle als auch auf mithilfe von beaufsichtigtem Lernen optimierte Versionen dieser Basismodelle angewendet werden.
Endpunkte mit überwacht feinabgestimmten Modellen und das entsprechende Basismodell werden auf dasselbe Kontingent für den bereitgestellten Durchsatz angerechnet.
Wenn Sie beispielsweise für
gemini-2.0-flash-lite-001
für ein bestimmtes Projekt einen bereitgestellten Durchsatz erwerben, werden Anfragen priorisiert, die von überwachten, optimierten Versionen vongemini-2.0-flash-lite-001
gestellt werden, die in diesem Projekt erstellt wurden. Verwenden Sie die entsprechende Überschrift, um das Verhalten des Traffics zu steuern.
Partnermodelle
In der folgenden Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Partnermodelle aufgeführt, die Provisioned Throughput unterstützen. Claude-Modelle werden in Tokens pro Sekunde gemessen. Dieser Wert wird als Summe der Eingabe- und Ausgabetokens für alle Anfragen pro Sekunde definiert.
Modell | Durchsatz pro GSU (Tokens/Sekunde) | Mindestbestellmenge für GSUs | Kaufsteigerung für GSUs | Abnahmeraten |
---|---|---|---|---|
Claude 3.7 Sonnet von Anthropic | 350 | 25 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Claude 3.5 Sonnet v2 von Anthropic | 350 | 25 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Claude 3.5 Haiku von Anthropic | 2.000 | 10 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Claude 3 Opus von Anthropic | 70 | 35 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Claude 3 Haiku von Anthropic | 4.200 | 5 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Claude 3.5 Sonnet von Anthropic | 350 | 25 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibtoken = 1,25 Tokens 1 Cache-Treffer-Token = 0,1 Token |
Informationen zu unterstützten Standorten finden Sie unter Verfügbarkeit: Anthropic Claude-Region. Wenn Sie den bereitgestellten Durchsatz für anthropische Modelle bestellen möchten, wenden Sie sich an Ihren Google Cloud Kundenbetreuer.