Diese Seite wurde von der Cloud Translation API übersetzt.

Anforderungen an den bereitgestellten Durchsatz berechnen

In diesem Abschnitt werden die Konzepte der Skalierungseinheit der generativen KI (GSU) und der Abnahmeraten erläutert. Provisioned Throughput wird anhand von Skalierungseinheiten der generativen KI (GSUs) und Abnahmeraten berechnet und festgelegt.

GSU und Burn-Down-Rate

Eine Skalierungseinheit der generativen KI (Generative AI Scale Unit, GSU) ist ein Maß für den Durchsatz Ihrer Prompts und Antworten. Dieser Betrag gibt an, wie viel Durchsatz für ein Modell bereitgestellt werden soll.

Die Burndown-Rate ist ein Verhältnis, mit dem die Ein- und Ausgabeeinheiten (z. B. Tokens, Zeichen oder Bilder) in Eingabetokens pro Sekunde, Eingabezeichen pro Sekunde bzw. Eingabebilder pro Sekunde umgerechnet werden. Dieses Verhältnis stellt den Durchsatz dar und wird verwendet, um eine Standardeinheit für alle Modelle zu erstellen.

Für verschiedene Modelle wird ein unterschiedlicher Durchsatz verwendet. Informationen zum Mindestkaufbetrag für GSU und zu den Inkrementen für die einzelnen Modelle finden Sie in diesem Dokument unter Unterstützte Modelle und Abrechnungsraten.

Diese Gleichung zeigt, wie der Durchsatz berechnet wird:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Der berechnete Durchsatz pro Sekunde bestimmt, wie viele GSUs Sie für Ihren Anwendungsfall benötigen.

Wichtige Hinweise

Damit Sie Ihre Anforderungen an Provisioned Throughput besser planen können, sollten Sie die folgenden wichtigen Aspekte berücksichtigen:

Anfragen werden priorisiert.

Anfragen von Provisioned Throughput-Kunden werden vor On-Demand-Anfragen priorisiert und bearbeitet.
Der Durchsatz wird nicht kumuliert.

Nicht verwendeter Durchsatz wird nicht angesammelt oder in den nächsten Monat übertragen.
Provisioned Throughput wird in Tokens pro Sekunde, Zeichen pro Sekunde oder Bildern pro Sekunde gemessen.

Provisioned Throughput wird nicht nur anhand von Abfragen pro Minute (QPM) gemessen. Sie wird anhand der Abfragegröße für Ihren Anwendungsfall, der Antwortgröße und der Anzahl der Abfragen pro Minute gemessen.
Provisioned Throughput ist spezifisch für ein Projekt, eine Region, ein Modell und eine Version.

Provisioned Throughput wird einer bestimmten Kombination aus Projekt, Region, Modell und Version zugewiesen. Wenn dasselbe Modell aus einer anderen Region aufgerufen wird, wird es nicht auf Ihr Kontingent für bereitgestellten Durchsatz angerechnet und nicht gegenüber On-Demand-Anfragen priorisiert.

Kontext-Caching

Der bereitgestellte Durchsatz unterstützt das implizite Kontext-Caching. Explizites Zwischenspeichern von Kontext wird nicht unterstützt. Traffic für das explizite Zwischenspeichern von Kontext wird von „Provisioned Throughput“ zu „Pay as you go“ verschoben.

Das implizite Caching ist in allen Google Cloud -Projekten standardmäßig aktiviert. Durch implizites Caching werden Kosten und Latenz bei Cache-Treffern reduziert. Bei den Modellen Gemini 2.0 Flash, Gemini 2.5 Flash und Gemini 2.5 Pro werden zwischengespeicherte Tokens bei einem Cache-Treffer mit einem Rabatt von 75% im Vergleich zu Standard-Eingabetokens berechnet. Bei Provisioned Throughput wird der Rabatt durch eine niedrigere Abnahmerate angewendet.

Für Gemini 2.5 Pro gelten beispielsweise die folgenden Burndown-Raten für Eingabetext-Tokens und zwischengespeicherte Tokens:

1 Eingabetext-Token = 1 Token
1 Eingabetoken für zwischengespeicherten Text = 0,25 Tokens

Wenn Sie 1.000 Eingabetokens an dieses Modell senden, wird der bereitgestellte Durchsatz um 1.000 Eingabetokens pro Sekunde reduziert. Wenn Sie jedoch 1.000 zwischengespeicherte Tokens an Gemini 2.5 Pro senden, wird Ihr bereitgestellter Durchsatz um 250 Tokens pro Sekunde reduziert.

Dies kann zu einem höheren Durchsatz für ähnliche Anfragen führen, bei denen die Tokens nicht im Cache gespeichert sind und der Cache-Rabatt nicht angewendet wird.

Die Abnahmeraten für Modelle, die in Provisioned Throughput unterstützt werden, finden Sie unter Unterstützte Modelle und Abnahmeraten.

Informationen zur Einstellung der Live API

Provisioned Throughput unterstützt die Gemini 2.5 Flash with Live API. Informationen zum Berechnen des Burndown bei Verwendung der Live API finden Sie unter Durchsatz für Live API berechnen.

Weitere Informationen zur Verwendung von Provisioned Throughput für Gemini 2.5 Flash mit Live API finden Sie unter Provisioned Throughput für Live API.

Beispiel für die Schätzung Ihrer Anforderungen an Provisioned Throughput

Verwenden Sie das Schätzungstool in der Google Cloud Console, um Ihre Anforderungen für Provisioned Throughput zu ermitteln. Das folgende Beispiel veranschaulicht, wie Sie die Menge des bereitgestellten Durchsatzes für Ihr Modell schätzen können. Die Region wird bei den Schätzungen nicht berücksichtigt.

In dieser Tabelle finden Sie die Abnahmeraten für gemini-2.0-flash, die Sie für das Beispiel verwenden können.

Modell	Durchsatz pro GSU	Einheiten	Mindestkaufsteigerung für GSUs	Abnahmeraten
Gemini 2.0 Flash	3.360	Tokens	1	1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 7 Tokens 1 Ausgabetext-Token = 4 Tokens

Anforderungen zusammenstellen
1. In diesem Beispiel müssen Sie überprüfen, ob Sie 10 Abfragen pro Sekunde (QPS) einer Anfrage mit einer Eingabe von 1.000 Text-Tokens und 500 Audio-Tokens unterstützen können, um eine Ausgabe von 300 Text-Tokens mit gemini-2.0-flash zu erhalten.
  
  In diesem Schritt müssen Sie Ihren Anwendungsfall verstehen, da Sie Ihr Modell, die QPS und die Größe Ihrer Ein- und Ausgaben ermittelt haben.
2. Um den Durchsatz zu berechnen, sehen Sie sich die Burndown-Raten für das ausgewählte Modell an.
Berechnen Sie den Durchsatz.
1. Multiplizieren Sie Ihre Eingaben mit den Burndown-Raten, um die Gesamtzahl der Eingabetokens zu erhalten:
  
  1.000 × (1 Token pro Eingabetexttoken) + 500 × (7 Tokens pro Eingabeaudiotoken) = 4.500 Burndown-angepasste Eingabetokens pro Anfrage.
2. Multiplizieren Sie die Ausgaben mit den Burndown-Raten, um die Gesamtzahl der Ausgabetokens zu erhalten:
  
  300 × (4 Tokens pro Ausgabetexttoken) = 1.200 Tokens für die Ausgabeberechnung pro Anfrage
3. Gesamtsummen addieren:
  
  4.500 eingabebezogene Tokens (bereinigt um den Burndown) + 1.200 ausgabebezogene Tokens (bereinigt um den Burndown) = 5.700 Tokens insgesamt pro Anfrage
4. Multiplizieren Sie die Gesamtzahl der Tokens mit den QPS, um den Gesamtdurchsatz pro Sekunde zu erhalten:
  
  5.700 Tokens insgesamt pro Abfrage × 10 QPS = 57.000 Tokens insgesamt pro Sekunde
GSUs berechnen
1. Die GSUs sind die Gesamtzahl der Tokens pro Sekunde geteilt durch den Durchsatz pro Sekunde pro GSU aus der Abnahmetabelle.
  
  57.000 Gesamt-Tokens pro Sekunde ÷ 3.360 Durchsatz pro Sekunde pro GSU = 16,96 GSUs
2. Die Mindestkaufsteigerung für gemini-2.0-flash beträgt 1 GSU. Sie benötigen also 17 GSUs, um Ihre Arbeitslast zu gewährleisten.

Nächste Schritte

Provisioned Throughput kaufen