In diesem Abschnitt werden die Konzepte der Skalierungseinheit der generativen KI (GSU) und der Abnahmeraten erläutert. Provisioned Throughput wird anhand von Skalierungseinheiten der generativen KI (GSUs) und Abnahmeraten berechnet und festgelegt.
GSU und Burn-Down-Rate
Eine Skalierungseinheit der generativen KI (GSU) ist ein Maß für den Durchsatz Ihrer Prompts und Antworten. Dieser Betrag gibt an, wie viel Durchsatz für ein Modell bereitgestellt werden soll.
Die Burndown-Rate ist ein Verhältnis, mit dem die Ein- und Ausgabeeinheiten (z. B. Tokens, Zeichen oder Bilder) in Eingabetokens pro Sekunde, Eingabezeichen pro Sekunde bzw. Eingabebilder pro Sekunde umgerechnet werden. Dieses Verhältnis stellt den Durchsatz dar und wird verwendet, um eine Standardeinheit für alle Modelle zu erstellen.
Für verschiedene Modelle wird ein unterschiedlicher Durchsatz verwendet. Informationen zum Mindestkaufbetrag für GSU und zu den Inkrementen für die einzelnen Modelle finden Sie in diesem Dokument unter Unterstützte Modelle und Abrechnungsraten.
Diese Gleichung zeigt, wie der Durchsatz berechnet wird:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
Der berechnete Durchsatz pro Sekunde bestimmt, wie viele GSUs Sie für Ihren Anwendungsfall benötigen.
Wichtige Hinweise
Damit Sie Ihre Anforderungen an Provisioned Throughput besser planen können, sollten Sie die folgenden wichtigen Aspekte berücksichtigen:
Anfragen werden priorisiert.
Anfragen von Provisioned Throughput-Kunden werden vor On-Demand-Anfragen priorisiert und bearbeitet.
Der Durchsatz wird nicht kumuliert.
Nicht verwendeter Durchsatz wird nicht angesammelt oder in den nächsten Monat übertragen.
Provisioned Throughput wird in Tokens pro Sekunde, Zeichen pro Sekunde oder Bildern pro Sekunde gemessen.
Provisioned Throughput wird nicht nur anhand von Abfragen pro Minute (QPM) gemessen. Sie wird anhand der Abfragegröße für Ihren Anwendungsfall, der Antwortgröße und der Anzahl der Abfragen pro Minute gemessen.
Provisioned Throughput ist spezifisch für ein Projekt, eine Region, ein Modell und eine Version.
Provisioned Throughput wird einer bestimmten Kombination aus Projekt, Region, Modell und Version zugewiesen. Wenn dasselbe Modell aus einer anderen Region aufgerufen wird, wird es nicht auf Ihr Kontingent für bereitgestellten Durchsatz angerechnet und nicht gegenüber On-Demand-Anfragen priorisiert.
Kontext-Caching
Der bereitgestellte Durchsatz unterstützt das standardmäßige Context Caching. Provisioned Throughput unterstützt jedoch nicht das Zwischenspeichern von Anfragen mit der Vertex AI API, die das Abrufen von Informationen zu einem Kontextcache umfassen.
Standardmäßig werden Eingaben von Google automatisch im Cache gespeichert, um Kosten und Latenz zu reduzieren. Bei den Modellen Gemini 2.5 Flash und Gemini 2.5 Pro werden für im Cache gespeicherte Tokens bei einem Cache-Treffer 75% Rabatt im Vergleich zu Standard-Eingabetokens berechnet. Bei Provisioned Throughput wird der Rabatt durch eine niedrigere Abnahmerate angewendet.
Gemini 2.5 Pro hat beispielsweise die folgenden Burndown-Raten für Eingabetext-Tokens und im Cache gespeicherte Tokens:
1 Eingabetext-Token = 1 Token
1 Eingabetoken für zwischengespeicherten Text = 0,25 Tokens
Wenn Sie 1.000 Eingabetokens an dieses Modell senden, wird der bereitgestellte Durchsatz um 1.000 Eingabetokens pro Sekunde reduziert. Wenn Sie jedoch 1.000 zwischengespeicherte Tokens an Gemini 2.5 Pro senden, wird der bereitgestellte Durchsatz um 250 Tokens pro Sekunde reduziert.
Dies kann zu einem höheren Durchsatz für ähnliche Anfragen führen, bei denen die Tokens nicht im Cache gespeichert sind und der Cache-Rabatt nicht angewendet wird.
Die Abnahmeraten für Modelle, die in Provisioned Throughput unterstützt werden, finden Sie unter Unterstützte Modelle und Abnahmeraten.
Beispiel für die Schätzung Ihrer Anforderungen an Provisioned Throughput
Verwenden Sie das Schätzungstool in der Google Cloud Console, um Ihre Anforderungen für Provisioned Throughput zu ermitteln. Das folgende Beispiel veranschaulicht den Prozess der Schätzung der Menge an bereitgestelltem Durchsatz für Ihr Modell. Die Region wird bei den Schätzungen nicht berücksichtigt.
In dieser Tabelle finden Sie die Abnahmeraten für gemini-2.0-flash
, die Sie für das Beispiel verwenden können.
Modell | Durchsatz pro GSU | Einheiten | Mindestkaufsteigerung für GSUs | Abnahmeraten |
---|---|---|---|---|
Gemini 2.0 Flash | 3.360 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 7 Tokens 1 Ausgabetext-Token = 4 Tokens |
Anforderungen zusammenstellen
In diesem Beispiel müssen Sie überprüfen, ob Sie 10 Abfragen pro Sekunde (QPS) einer Anfrage mit einer Eingabe von 1.000 Text-Tokens und 500 Audio-Tokens unterstützen können, um eine Ausgabe von 300 Text-Tokens mit
gemini-2.0-flash
zu erhalten.In diesem Schritt müssen Sie Ihren Anwendungsfall verstehen, da Sie Ihr Modell, die QPS und die Größe Ihrer Ein- und Ausgaben ermittelt haben.
Um den Durchsatz zu berechnen, sehen Sie sich die Burndown-Raten für das ausgewählte Modell an.
Berechnen Sie den Durchsatz.
Multiplizieren Sie Ihre Eingaben mit den Burndown-Raten, um die Gesamtzahl der Eingabetokens zu erhalten:
1.000 × (1 Token pro Eingabetexttoken) + 500 × (7 Tokens pro Eingabeaudiotoken) = 4.500 Burndown-angepasste Eingabetokens pro Anfrage.
Multiplizieren Sie die Ausgaben mit den Burndown-Raten, um die Gesamtzahl der Ausgabetokens zu erhalten:
300* (4 Tokens pro Ausgabetexttoken) = 1.200 Tokens für die Ausgabe pro Anfrage (nach Berücksichtigung des Burndown)
Gesamtsummen addieren:
4.500 eingabebezogene Tokens (bereinigt um den Burndown) + 1.200 ausgabebezogene Tokens (bereinigt um den Burndown) = 5.700 Tokens insgesamt pro Anfrage
Multiplizieren Sie die Gesamtzahl der Tokens mit den QPS, um den Gesamtdurchsatz pro Sekunde zu erhalten:
5.700 Tokens insgesamt pro Abfrage × 10 QPS = 57.000 Tokens insgesamt pro Sekunde
GSUs berechnen
Die GSUs sind die Gesamtzahl der Tokens pro Sekunde geteilt durch den Durchsatz pro Sekunde und GSU aus der Abnahmetabelle.
57.000 Gesamt-Tokens pro Sekunde ÷ 3.360 Durchsatz pro Sekunde pro GSU = 16,96 GSUs
Die Mindestkaufsteigerung für
gemini-2.0-flash
beträgt 1 GSU. Sie benötigen also 17 GSUs, um Ihre Arbeitslast zu garantieren.