Funktionsweise von Provisioned Throughput
In diesem Abschnitt wird erläutert, wie Provisioned Throughput funktioniert, indem die Kontingentprüfung über den Zeitraum der Kontingentdurchsetzung verwendet wird.
Prüfung des Kontingents für bereitgestellten Durchsatz
Das maximale Kontingent für den bereitgestellten Durchsatz ist ein Vielfaches der Anzahl der gekauften Skalierungseinheiten der generativen KI (GSUs) und des Durchsatzes pro GSU. Sie wird jedes Mal geprüft, wenn Sie innerhalb des Zeitraums für die Kontingentdurchsetzung eine Anfrage stellen. Das ist die Häufigkeit, mit der das maximale Kontingent für den bereitgestellten Durchsatz erzwungen wird.
Zum Zeitpunkt des Eingangs einer Anfrage ist die tatsächliche Antwortgröße unbekannt. Da wir bei Echtzeitanwendungen die Reaktionsgeschwindigkeit priorisieren, wird die Größe des Ausgabetokens mithilfe des bereitgestellten Durchsatzes geschätzt. Wenn die anfängliche Schätzung das verfügbare maximale Kontingent für den bereitgestellten Durchsatz überschreitet, wird die Anfrage als „Pay-as-you-go“ verarbeitet. Andernfalls wird sie als bereitgestellter Durchsatz verarbeitet. Dazu wird die ursprüngliche Schätzung mit dem maximalen Kontingent für den bereitgestellten Durchsatz verglichen.
Wenn die Antwort generiert wird und die tatsächliche Größe des Ausgabetokens bekannt ist, werden die tatsächliche Nutzung und das Kontingent abgeglichen, indem die Differenz zwischen der Schätzung und der tatsächlichen Nutzung zum verfügbaren Kontingent für den bereitgestellten Durchsatz addiert wird.
Zeitraum für die Durchsetzung des Kontingents für bereitgestellten Durchsatz
Bei den Modellen gemini-2.0-flash-lite
und gemini-2.0-flash
kann die Durchsetzung des Kontingents bis zu 30 Sekunden dauern und ist Änderungen vorbehalten.
Das bedeutet, dass priorisierter Traffic in einigen Fällen vorübergehend das Kontingent pro Sekunde überschreiten kann. Das Kontingent pro 30 Sekunden sollte jedoch nicht überschritten werden. Bei anderen Modellen kann es bis zu einer Minute dauern, bis die Kontingenterzwingung wirksam wird. Diese Zeiträume basieren auf der internen Vertex AI-Uhrzeit und sind unabhängig davon, wann Anfragen gestellt werden.
Wenn Sie beispielsweise eine GSU von gemini-2.0-flash-001
kaufen, können Sie mit einem Durchsatz von 800 Zeichen pro Sekunde rechnen. Im Durchschnitt darf die Länge pro 30 Sekunden 24.000 Zeichen nicht überschreiten. Das wird mithilfe der folgenden Formel berechnet:
800 characters per second * 30 seconds = 24,000 characters
Wenn Sie den ganzen Tag lang eine einzelne Anfrage gesendet haben, die 1.600 Zeichen pro Sekunde benötigt hat, wird sie möglicherweise trotzdem als Anfrage mit bereitgestelltem Durchsatz verarbeitet, da sie unter dem Grenzwert von 24.000 Zeichen pro 30 Sekunden liegt, auch wenn Sie zum Zeitpunkt der Anfrage das Limit von 800 Zeichen pro Sekunde überschritten haben.
Überschreitungen steuern oder Provisioned Throughput umgehen
Mit der API können Sie Überschreitungen steuern, wenn Sie den gekauften Durchsatz überschreiten, oder Provisioned Throughput pro Anfrage umgehen.
Lesen Sie sich die einzelnen Optionen durch, um herauszufinden, was Sie tun müssen, um Ihren Anwendungsfall zu erfüllen.
Standardverhalten
Wenn Sie den gekauften Durchsatz überschreiten, werden die Überschreitungen als On-Demand-Nutzung abgerechnet und zum Pay-as-you-go-Preis in Rechnung gestellt. Sobald Ihre Bestellung für Provisioned Throughput aktiv ist, wird das Standardverhalten automatisch angewendet. Sie müssen Ihren Code nicht ändern, um mit der Inanspruchnahme Ihrer Bestellung zu beginnen.
Nur Provisioned Throughput verwenden
Wenn Sie Kosten verwalten, indem Sie On-Demand-Gebühren vermeiden, verwenden Sie nur Provisioned Throughput. Bei Anfragen, die den Bestellbetrag für Provisioned Throughput überschreiten, wird der Fehler 429
zurückgegeben.
Wenn Sie Anfragen an die API senden, setzen Sie den X-Vertex-AI-LLM-Request-Type
-HTTP-Header auf dedicated
.
Nur Pay-as-you-go verwenden
Dies wird auch als On-Demand-Nutzung bezeichnet. Anfragen umgehen die Bestellung von Provisioned Throughput und werden direkt an Pay-as-you-go gesendet. Das kann für Tests oder Anwendungen in der Entwicklungsphase nützlich sein.
Legen Sie beim Senden von Anfragen an die API den X-Vertex-AI-LLM-Request-Type
-HTTP-Header auf shared
fest.
Beispiel
Gen AI SDK for Python
Installieren
pip install --upgrade google-genai
Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Provisioned Throughput überwachen
Sie können die Nutzung von Provisioned Throughput selbst mithilfe einer Reihe von Messwerten überwachen, die für den Ressourcentyp aiplatform.googleapis.com/PublisherModel
erfasst werden.
Die Überwachung des Traffics für den bereitgestellten Durchsatz ist eine Funktion in der öffentlichen Vorschau.
Dimensionen
Sie können nach Messwerten mithilfe der folgenden Dimensionen filtern:
Dimension | Werte |
---|---|
type |
input output |
request_type |
|
Pfadpräfix
Das Pfadpräfix für einen Messwert lautet aiplatform.googleapis.com/publisher/online_serving
.
Der vollständige Pfad für den Messwert /consumed_throughput
lautet beispielsweise aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
.
Messwerte
Die folgenden Cloud Monitoring-Messwerte sind für die Gemini-Modelle in der Ressource aiplatform.googleapis.com/PublisherModel
verfügbar. Verwenden Sie die Anfragetypen dedicated
, um nach der Nutzung von Provisioned Throughput zu filtern.
Messwert | Anzeigename | Beschreibung |
---|---|---|
/dedicated_gsu_limit |
Limit (GSU) | Spezielles Limit in GSUs. Anhand dieses Messwerts können Sie das maximale Kontingent für den bereitgestellten Durchsatz in GSUs ermitteln. |
/tokens |
Tokens | Verteilung der Tokenanzahl bei Eingabe und Ausgabe. |
/token_count |
Tokenanzahl | Die Summe der Eingabe- und Ausgabetoken. |
/consumed_token_throughput |
Tokendurchsatz | Durchsatznutzung, die die Abnahmerate in Tokens berücksichtigt und die Kontingentabgleichung einbezieht. Weitere Informationen finden Sie unter Kontingentprüfung für bereitgestellten Durchsatz. Anhand dieses Messwerts können Sie nachvollziehen, wie Ihr Kontingent für bereitgestellten Durchsatz verwendet wurde. |
/dedicated_token_limit |
Limit (Tokens pro Sekunde) | Spezifisches Limit in Tokens pro Sekunde. Anhand dieses Messwerts können Sie das maximale Kontingent für den bereitgestellten Durchsatz für tokenbasierte Modelle ermitteln. |
/characters |
Zeichen | Verteilung der Zeichenanzahl bei Eingabe und Ausgabe. |
/character_count |
Anzahl der Zeichen | Die Summe der Zeichenanzahl in der Eingabe und Ausgabe. |
/consumed_throughput |
Zeichendurchsatz | Die Auslastung des Durchsatzes, die die Abnahmerate in Zeichen berücksichtigt und die Kontingentabgleichsfunktion Kontingentprüfung für bereitgestellten Durchsatz umfasst. Mit diesem Messwert können Sie nachvollziehen, wie Ihr Kontingent für den bereitgestellten Durchsatz genutzt wurde. Bei tokenbasierten Modellen entspricht dieser Messwert dem in Tokens verbrauchten Durchsatz multipliziert mit 4. |
/dedicated_character_limit |
Limit (Zeichen pro Sekunde) | Begrenzte Anzahl von Zeichen pro Sekunde. Anhand dieses Messwerts können Sie das maximale Kontingent für den bereitgestellten Durchsatz für zeichenbasierte Modelle ermitteln. |
/model_invocation_count |
Anzahl der Modellaufrufe | Anzahl der Modellausrufe (Vorhersageanfragen). |
/model_invocation_latencies |
Latenzen beim Modellaufruf | Latenz beim Modellaufruf (Vorhersagelatenz). |
/first_token_latencies |
Latenz beim ersten Token | Dauer vom Empfang der Anfrage bis zur Rückgabe des ersten Tokens. |
Anthropic-Modelle haben auch einen Filter für den bereitgestellten Durchsatz, aber nur für tokens/token_count
.
Dashboards
Die Standard-Monitoring-Dashboards für Provisioned Throughput enthalten Messwerte, mit denen Sie die Nutzung und Auslastung von Provisioned Throughput besser nachvollziehen können. So greifen Sie auf die Dashboards zu:
Rufen Sie in der Google Cloud Console die Seite Bereitgestellter Durchsatz auf.
Wenn Sie die Auslastung des bereitgestellten Durchsatzes jedes Modells in Ihren Bestellungen aufrufen möchten, wählen Sie den Tab Auslastungsübersicht aus.
Wählen Sie in der Tabelle Ausgewählter Durchsatz – Auslastung nach Modell ein Modell aus, um weitere Messwerte für das ausgewählte Modell zu sehen.
Einschränkungen des Dashboards
Im Dashboard werden möglicherweise unerwartete Ergebnisse angezeigt, insbesondere wenn die Zugriffszahlen stark schwanken. Die folgenden Gründe können zu diesen Ergebnissen beitragen:
- Zeiträume, die länger als 12 Stunden sind, können zu einer weniger genauen Darstellung des Zeitraums führen, in dem das Kontingent erzwungen wird. Für Durchsatzmesswerte und ihre Ableitungen wie die Auslastung werden Durchschnittswerte für Alignierungszeiträume angezeigt, die auf dem ausgewählten Zeitraum basieren. Wenn der Zeitraum erweitert wird, wird auch jeder Ausrichtungszeitraum erweitert. Der Kalibrierungszeitraum erstreckt sich über die Berechnung der durchschnittlichen Nutzung. Da die Kontingenteinhaltung auf einer untergeordneten Minutenebene berechnet wird, führen Zeiträume von maximal 12 Stunden zu Daten auf Minutenebene, die mit dem tatsächlichen Zeitraum der Kontingenteinhaltung besser vergleichbar sind. Weitere Informationen zu Ausrichtungszeiträumen finden Sie unter Ausrichtung: Regularisierung innerhalb der Reihe. Weitere Informationen zu Zeiträumen finden Sie unter Zeitintervalle regularisieren.
- Wenn mehrere Anfragen gleichzeitig gesendet wurden, kann sich das auf die Möglichkeit auswirken, nach bestimmten Anfragen zu filtern.
- Bei Provisioned Throughput wird der Traffic gedrosselt, wenn eine Anfrage gestellt wurde. Die Nutzungsmesswerte werden jedoch erst nach der Kontingentabgleichung erfasst.
- Die Zeiträume für die Durchsetzung von Kontingenten für bereitgestellten Durchsatz sind unabhängig von und stimmen möglicherweise nicht mit den Zeiträumen für die Aggregation von Monitoring-Daten oder den Zeiträumen für Anfragen oder Antworten überein.
- Wenn keine Fehler aufgetreten sind, wird im Diagramm zur Fehlerrate möglicherweise eine Fehlermeldung angezeigt. Beispiel: Beim Anfordern der Daten ist ein Fehler aufgetreten. Eine oder mehrere Ressourcen konnten nicht gefunden werden.
Benachrichtigungen
Nachdem Sie Benachrichtigungen aktiviert haben, können Sie Standardbenachrichtigungen festlegen, um die Nutzung Ihres Traffics zu verwalten.
Benachrichtigungen aktivieren
So aktivieren Sie Benachrichtigungen im Dashboard:
Rufen Sie in der Google Cloud Console die Seite Bereitgestellter Durchsatz auf.
Wenn Sie die Auslastung des bereitgestellten Durchsatzes jedes Modells in Ihren Bestellungen aufrufen möchten, wählen Sie den Tab Auslastungsübersicht aus.
Wählen Sie Empfohlene Benachrichtigungen aus. Die folgenden Benachrichtigungen werden angezeigt:
Provisioned Throughput Usage Reached Limit
Provisioned Throughput Utilization Exceeded 80%
Provisioned Throughput Utilization Exceeded 90%
Sehen Sie sich die Benachrichtigungen an, die Ihnen bei der Verwaltung Ihres Traffics helfen.
Weitere Details zur Benachrichtigung ansehen
So rufen Sie weitere Informationen zu Benachrichtigungen auf:
Rufen Sie die Seite Integrationen auf.
Geben Sie vertex in das Feld Filter ein und drücken Sie die Eingabetaste. Google Vertex AI wird angezeigt.
Wenn Sie weitere Informationen aufrufen möchten, klicken Sie auf Details ansehen. Der Bereich Google Vertex AI-Details wird angezeigt.
Wählen Sie den Tab Benachrichtigungen aus und wählen Sie eine Vorlage für die Benachrichtigungsrichtlinie aus.
Nächste Schritte
- Fehlercode
429
beheben