GSU und Burn-Down-Rate
Eine Skalierungseinheit der generativen KI (GSU) ist ein Maß für den Durchsatz Ihrer Prompts und Antworten. Dieser Wert gibt an, mit welchem Durchsatz ein Modell bereitgestellt werden soll.
Eine Abnahmerate ist ein Verhältnis, das die Eingabe- und Ausgabeeinheiten (z. B. Tokens, Zeichen oder Bilder) in Eingabetokens pro Sekunde, Eingabezeichen pro Sekunde oder Eingabebilder pro Sekunde umwandelt. Dieses Verhältnis steht für den Durchsatz und wird verwendet, um eine standardmäßige Einheit für alle Modelle zu erstellen.
Für verschiedene Modelle wird ein unterschiedlicher Durchsatz verwendet. Informationen zum Mindestbestellwert und zu den Schritten für die einzelnen Modelle finden Sie in diesem Dokument unter Unterstützte Modelle und Abnahmeraten.
Diese Gleichung veranschaulicht die Berechnung des Durchsatzes:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
Anhand des berechneten Durchsatzes pro Sekunde wird festgelegt, wie viele GSUs Sie für Ihren Anwendungsfall benötigen.
Wichtige Hinweise
Um Ihre Anforderungen an den bereitgestellten Durchsatz zu planen, sollten Sie die folgenden wichtigen Aspekte berücksichtigen:
Anfragen werden priorisiert.
Anfragen von Provisioned Throughput-Kunden werden vor On-Demand-Anfragen priorisiert und bearbeitet.
Der Durchsatz wird nicht addiert.
Nicht genutzter Durchsatz wird nicht angesammelt oder in den nächsten Monat übertragen.
Der zugewiesene Durchsatz wird in Tokens pro Sekunde, Zeichen pro Sekunde oder Bildern pro Sekunde gemessen.
Der bereitgestellte Durchsatz wird nicht nur anhand der Anzahl der Abfragen pro Minute (QPM) gemessen. Er wird anhand der Abfragegröße für Ihren Anwendungsfall, der Antwortgröße und der Anzahl der Abfragen pro Minute gemessen.
Der bereitgestellte Durchsatz ist spezifisch für ein Projekt, eine Region, ein Modell und eine Version.
Der bereitgestellte Durchsatz wird einer bestimmten Kombination aus Projekt, Region, Modell und Version zugewiesen. Wenn dasselbe Modell von einer anderen Region aufgerufen wird, wird es nicht auf Ihr Kontingent für den bereitgestellten Durchsatz angerechnet und nicht vor On-Demand-Anfragen priorisiert.
Beispiel für die Schätzung Ihrer Anforderungen an Provisioned Throughput
Verwenden Sie das Schätzungstool in der Google Cloud Console, um Ihre Anforderungen für Provisioned Throughput zu ermitteln. Das folgende Beispiel veranschaulicht die Schätzung des bereitgestellten Durchsatzes für Ihr Modell. Die Region wird bei der Schätzung nicht berücksichtigt.
In dieser Tabelle finden Sie die Abnahmeraten für gemini-2.0-flash
, die Sie für das Beispiel verwenden können.
Modell | Durchsatz pro GSU | Einheiten | Mindestkaufsteigerung für GSUs | Abnahmeraten |
---|---|---|---|---|
Gemini 2.0 Flash | 3.360 | Tokens | 1 |
1 Eingabe-Texttoken = 1 Token 1 Eingabe-Bildtoken = 1 Token 1 Eingabe-Videotoken = 1 Token 1 Eingabe-Audiotoken = 7 Tokens 1 Ausgabe-Texttoken = 4 Tokens |
Ermitteln Sie Ihre Anforderungen.
In diesem Beispiel müssen Sie 10 Abfragen pro Sekunde (QPS) einer Abfrage mit einer Eingabe von 1.000 Text- und 500 Audio-Tokens unterstützen, um mit
gemini-2.0-flash
eine Ausgabe von 300 Text-Tokens zu erhalten.Bei diesem Schritt sollten Sie Ihren Anwendungsfall kennen, da Sie Ihr Modell, die QPS und die Größe Ihrer Eingaben und Ausgaben ermittelt haben.
Informationen zur Berechnung des Durchsatzes finden Sie in den Abschreibungsraten für das ausgewählte Modell.
Berechnen Sie den Durchsatz.
Multiplizieren Sie die Eingaben mit den Abnahmeraten, um die Gesamtzahl der Eingabetokens zu erhalten:
1.000*(1 Token pro Eingabetexttoken) + 500*(7 Tokens pro Eingabeaudiotoken) = 4.500 verbrannte Eingabetokens pro Anfrage.
Multiplizieren Sie die Ausgabewerte mit den Abnahmeraten, um die Gesamtzahl der Ausgabetokens zu erhalten:
300*(4 Tokens pro Ausgabetexttoken) = 1.200 nach dem Burndown angepasste Ausgabetokens pro Anfrage
Addieren Sie die Gesamtbeträge:
4.500 angepasste Eingabetokens nach Burndown + 1.200 angepasste Ausgabetokens nach Burndown = 5.700 Tokens insgesamt pro Abfrage
Multiplizieren Sie die Gesamtzahl der Tokens mit der Anzahl der Abfragen pro Sekunde, um den Gesamtdurchsatz pro Sekunde zu erhalten:
5.700 Tokens insgesamt pro Abfrage * 10 Abfragen pro Sekunde = 57.000 Tokens insgesamt pro Sekunde
Berechnen Sie Ihre GSUs.
Die GSUs sind die Gesamtzahl der Tokens pro Sekunde geteilt durch den Durchsatz pro GSU und Sekunde aus der Abnahmetabelle.
57.000 Token pro Sekunde ÷ 3.360 Durchsatz pro Sekunde pro GSU = 16,96 GSUs
Die Mindestkaufsteigerung für
gemini-2.0-flash
beträgt 1 GSU. Sie benötigen also 17 GSUs für Ihre Arbeitslast.