Funktionsweise von Provisioned Throughput
In diesem Abschnitt wird erläutert, wie Provisioned Throughput funktioniert, indem die Kontingentprüfung über den Zeitraum der Kontingentdurchsetzung verwendet wird.
Prüfung des Kontingents für bereitgestellten Durchsatz
Das maximale Kontingent für den bereitgestellten Durchsatz ist ein Vielfaches der Anzahl der gekauften Skalierungseinheiten der generativen KI (GSUs) und des Durchsatzes pro GSU. Sie wird jedes Mal geprüft, wenn Sie innerhalb des Zeitraums für die Kontingentdurchsetzung eine Anfrage stellen. Das ist die Häufigkeit, mit der das maximale Kontingent für den bereitgestellten Durchsatz erzwungen wird.
Zum Zeitpunkt des Eingangs einer Anfrage ist die tatsächliche Antwortgröße unbekannt. Da wir bei Echtzeitanwendungen die Reaktionsgeschwindigkeit priorisieren, wird die Größe des Ausgabetokens mithilfe des bereitgestellten Durchsatzes geschätzt. Wenn die anfängliche Schätzung das verfügbare maximale Kontingent für den bereitgestellten Durchsatz überschreitet, wird die Anfrage als „Pay-as-you-go“ verarbeitet. Andernfalls wird sie als bereitgestellter Durchsatz verarbeitet. Dazu wird die ursprüngliche Schätzung mit dem maximalen Kontingent für den bereitgestellten Durchsatz verglichen.
Wenn die Antwort generiert wird und die tatsächliche Größe des Ausgabetokens bekannt ist, werden die tatsächliche Nutzung und das Kontingent abgeglichen, indem die Differenz zwischen der Schätzung und der tatsächlichen Nutzung zum verfügbaren Kontingent für den bereitgestellten Durchsatz addiert wird.
Zeitraum für die Durchsetzung des Kontingents für bereitgestellten Durchsatz
Bei den Modellen gemini-2.0-flash-lite
und gemini-2.0-flash
kann die Durchsetzung des Kontingents bis zu 30 Sekunden dauern und ist Änderungen vorbehalten.
Das bedeutet, dass priorisierter Traffic vorübergehend in einigen Fällen dein Kontingent pro Sekunde überschreiten kann. Auf 30-Sekunden-Basis sollte dein Kontingent jedoch nicht überschritten werden. Diese Zeiträume basieren auf der internen Vertex AI-Uhrzeit und sind unabhängig davon, wann Anfragen gestellt werden.
Wenn Sie beispielsweise eine GSU von gemini-2.0-flash-001
kaufen, können Sie mit einem Always-On-Durchsatz von 3.360 Tokens pro Sekunde rechnen. Im Durchschnitt dürfen Sie pro 30 Sekunden nicht mehr als 100.800 Zeichen verwenden. Das wird mithilfe der folgenden Formel berechnet:
3,360 tokens per second * 30 seconds = 100,800 tokens
Wenn Sie an einem Tag nur eine Anfrage gesendet haben, für die 8.000 Tokens pro Sekunde benötigt wurden, wird sie möglicherweise trotzdem als Anfrage mit bereitgestelltem Durchsatz verarbeitet, auch wenn Sie zum Zeitpunkt der Anfrage das Limit von 3.360 Tokens pro Sekunde überschritten haben. Das liegt daran,dass die Anfrage den Grenzwert von 100.800 Tokens pro 30 Sekunden nicht überschritten hat.
Überschreitungen steuern oder Provisioned Throughput umgehen
Mit der API können Sie Überschreitungen steuern, wenn Sie den gekauften Durchsatz überschreiten, oder Provisioned Throughput pro Anfrage umgehen.
Lesen Sie sich die einzelnen Optionen durch, um herauszufinden, was Sie tun müssen, um Ihren Anwendungsfall zu erfüllen.
Standardverhalten
Wenn Sie den gekauften Durchsatz überschreiten, werden die Überschreitungen als On-Demand-Nutzung abgerechnet und zum Pay-as-you-go-Preis in Rechnung gestellt. Sobald Ihre Bestellung für Provisioned Throughput aktiv ist, wird das Standardverhalten automatisch angewendet. Du musst deinen Code nicht ändern, um mit der Inanspruchnahme deiner Bestellung zu beginnen.
Nur Provisioned Throughput verwenden
Wenn Sie Kosten verwalten, indem Sie On-Demand-Gebühren vermeiden, verwenden Sie nur Provisioned Throughput. Bei Anfragen, die den Bestellbetrag für Provisioned Throughput überschreiten, wird der Fehler 429
zurückgegeben.
Wenn Sie Anfragen an die API senden, setzen Sie den X-Vertex-AI-LLM-Request-Type
-HTTP-Header auf dedicated
.
Nur Pay-as-you-go verwenden
Dies wird auch als On-Demand-Nutzung bezeichnet. Anfragen umgehen die Bestellung von Provisioned Throughput und werden direkt an Pay-as-you-go gesendet. Das kann für Tests oder Anwendungen in der Entwicklungsphase nützlich sein.
Legen Sie beim Senden von Anfragen an die API den X-Vertex-AI-LLM-Request-Type
-HTTP-Header auf shared
fest.
Beispiel
Gen AI SDK for Python
Installieren
pip install --upgrade google-genai
Weitere Informationen finden Sie in der SDK-Referenzdokumentation.
Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Provisioned Throughput überwachen
Sie können die Nutzung von Provisioned Throughput selbst mithilfe einer Reihe von Messwerten überwachen, die für den Ressourcentyp aiplatform.googleapis.com/PublisherModel
erfasst werden.
Die Überwachung des Traffics für den bereitgestellten Durchsatz ist eine Funktion in der öffentlichen Vorschau.
Dimensionen
Sie können nach Messwerten mithilfe der folgenden Dimensionen filtern:
Dimension | Werte |
---|---|
type |
input output |
request_type |
|
Pfadpräfix
Das Pfadpräfix für einen Messwert lautet aiplatform.googleapis.com/publisher/online_serving
.
Der vollständige Pfad für den Messwert /consumed_throughput
lautet beispielsweise aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
.
Messwerte
Die folgenden Cloud Monitoring-Messwerte sind für die Gemini-Modelle in der Ressource aiplatform.googleapis.com/PublisherModel
verfügbar. Verwenden Sie die Anfragetypen vom Typ dedicated
, um nach der Nutzung von Provisioned Throughput zu filtern.
Messwert | Anzeigename | Beschreibung |
---|---|---|
/dedicated_gsu_limit |
Limit (GSU) | Spezielles Limit in GSUs. Anhand dieses Messwerts können Sie das maximale Kontingent für den bereitgestellten Durchsatz in GSUs ermitteln. |
/tokens |
Tokens | Verteilung der Anzahl der Eingabe- und Ausgabetokens. |
/token_count |
Tokenanzahl | Die Summe der Eingabe- und Ausgabetoken. |
/consumed_token_throughput |
Tokendurchsatz | Durchsatznutzung, die die Abnahmerate in Tokens berücksichtigt und die Kontingentabgleiche einbezieht. Weitere Informationen finden Sie unter Kontingentprüfung für bereitgestellten Durchsatz. Anhand dieses Messwerts können Sie nachvollziehen, wie Ihr Kontingent für bereitgestellten Durchsatz verwendet wurde. |
/dedicated_token_limit |
Limit (Tokens pro Sekunde) | Spezielles Limit in Tokens pro Sekunde. Anhand dieses Messwerts können Sie das maximale Kontingent für den bereitgestellten Durchsatz für tokenbasierte Modelle ermitteln. |
/characters |
Zeichen | Verteilung der Zeichenanzahl bei Eingabe und Ausgabe. |
/character_count |
Anzahl der Zeichen | Die Summe der Zeichenanzahl in der Eingabe und Ausgabe. |
/consumed_throughput |
Zeichendurchsatz | Die Auslastung des Durchsatzes, die die Abnahmerate in Zeichen berücksichtigt und die Kontingentabgleichsfunktion Kontingentprüfung für bereitgestellten Durchsatz umfasst. Mit diesem Messwert können Sie nachvollziehen, wie Ihr Kontingent für den bereitgestellten Durchsatz verwendet wurde. Bei tokenbasierten Modellen entspricht dieser Messwert dem in Tokens verbrauchten Durchsatz multipliziert mit 4. |
/dedicated_character_limit |
Limit (Zeichen pro Sekunde) | Spezifisches Limit in Zeichen pro Sekunde. Anhand dieses Messwerts können Sie das maximale Kontingent für den bereitgestellten Durchsatz für zeichenbasierte Modelle ermitteln. |
/model_invocation_count |
Anzahl der Modellaufrufe | Anzahl der Modellausrufe (Vorhersageanfragen). |
/model_invocation_latencies |
Latenzen beim Modellaufruf | Latenz beim Modellaufruf (Vorhersagelatenz). |
/first_token_latencies |
Latenz beim ersten Token | Dauer vom Empfang der Anfrage bis zur Rückgabe des ersten Tokens. |
Anthropic-Modelle haben auch einen Filter für den bereitgestellten Durchsatz, aber nur für tokens/token_count
.
Dashboards
Die Standard-Monitoring-Dashboards für Provisioned Throughput enthalten Messwerte, mit denen Sie die Nutzung und Auslastung von Provisioned Throughput besser nachvollziehen können. So greifen Sie auf die Dashboards zu:
Rufen Sie in der Google Cloud Console die Seite Bereitgestellter Durchsatz auf.
Wenn Sie die Auslastung des bereitgestellten Durchsatzes jedes Modells in Ihren Bestellungen aufrufen möchten, wählen Sie den Tab Auslastungsübersicht aus.
Wählen Sie in der Tabelle Ausgewählter Durchsatz – Auslastung nach Modell ein Modell aus, um weitere Messwerte für das ausgewählte Modell zu sehen.
Einschränkungen des Dashboards
Im Dashboard werden möglicherweise unerwartete Ergebnisse angezeigt, insbesondere wenn die Zugriffszahlen stark schwanken. Die folgenden Gründe können zu diesen Ergebnissen beitragen:
- Zeiträume von mehr als 12 Stunden können zu einer weniger genauen Darstellung des Zeitraums führen, in dem das Kontingent erzwungen wird. Für Durchsatzmesswerte und ihre Ableitungen wie die Auslastung werden Durchschnittswerte für Alignierungszeiträume angezeigt, die auf dem ausgewählten Zeitraum basieren. Wenn der Zeitraum erweitert wird, wird auch jeder Ausrichtungszeitraum erweitert. Der Kalibrierungszeitraum erstreckt sich über die Berechnung der durchschnittlichen Nutzung. Da die Kontingenteinhaltung auf einer untergeordneten Minutenebene berechnet wird, führen Zeiträume von maximal 12 Stunden zu Daten auf Minutenebene, die mit dem tatsächlichen Zeitraum der Kontingenteinhaltung besser vergleichbar sind. Weitere Informationen zu Ausrichtungszeiträumen finden Sie unter Ausrichtung: Regularisierung innerhalb der Reihe. Weitere Informationen zu Zeiträumen finden Sie unter Zeitintervalle regularisieren.
- Wenn mehrere Anfragen gleichzeitig gesendet wurden, kann es sein, dass Sie bei der Überwachungsaggregation nicht nach bestimmten Anfragen filtern können.
- Bei Provisioned Throughput wird der Traffic gedrosselt, wenn eine Anfrage gestellt wurde. Die Nutzungsmesswerte werden jedoch erst nach der Kontingentabgleichung erfasst.
- Die Zeiträume für die Durchsetzung von Kontingenten für bereitgestellten Durchsatz sind unabhängig von und stimmen möglicherweise nicht mit den Zeiträumen für die Aggregation von Monitoring-Daten oder den Zeiträumen für Anfragen oder Antworten überein.
- Wenn keine Fehler aufgetreten sind, wird im Diagramm zur Fehlerrate möglicherweise eine Fehlermeldung angezeigt. Beispiel: Beim Anfordern der Daten ist ein Fehler aufgetreten. Eine oder mehrere Ressourcen konnten nicht gefunden werden.
Benachrichtigungen
Nachdem Sie Benachrichtigungen aktiviert haben, können Sie Standardbenachrichtigungen festlegen, um die Nutzung Ihres Traffics zu verwalten.
Benachrichtigungen aktivieren
So aktivieren Sie Benachrichtigungen im Dashboard:
Rufen Sie in der Google Cloud Console die Seite Bereitgestellter Durchsatz auf.
Wenn Sie die Auslastung des bereitgestellten Durchsatzes jedes Modells in Ihren Bestellungen aufrufen möchten, wählen Sie den Tab Auslastungsübersicht aus.
Wählen Sie Empfohlene Benachrichtigungen aus. Die folgenden Benachrichtigungen werden angezeigt:
Provisioned Throughput Usage Reached Limit
Provisioned Throughput Utilization Exceeded 80%
Provisioned Throughput Utilization Exceeded 90%
Sehen Sie sich die Benachrichtigungen an, die Ihnen bei der Verwaltung Ihres Traffics helfen.
Weitere Details zur Benachrichtigung ansehen
So rufen Sie weitere Informationen zu Benachrichtigungen auf:
Rufen Sie die Seite Integrationen auf.
Geben Sie vertex in das Feld Filter ein und drücken Sie die Eingabetaste. Google Vertex AI wird angezeigt.
Wenn Sie weitere Informationen aufrufen möchten, klicken Sie auf Details ansehen. Der Bereich Google Vertex AI-Details wird angezeigt.
Wählen Sie den Tab Benachrichtigungen aus und wählen Sie eine Vorlage für die Benachrichtigungsrichtlinie aus.
Nächste Schritte
- Fehlercode
429
beheben