Diese Seite wurde von der Cloud Translation API übersetzt.

Provisioned Throughput verwenden

Auf dieser Seite erfahren Sie, wie Provisioned Throughput funktioniert, wie Sie Überschreitungen steuern oder Provisioned Throughput umgehen und wie Sie die Nutzung überwachen.

Funktionsweise von Provisioned Throughput

In diesem Abschnitt wird erläutert, wie Provisioned Throughput funktioniert, indem die Kontingentprüfung über den Zeitraum der Kontingentdurchsetzung verwendet wird.

Prüfung des Kontingents für bereitgestellten Durchsatz

Das maximale Kontingent für den bereitgestellten Durchsatz ist ein Vielfaches der Anzahl der gekauften Skalierungseinheiten der generativen KI (GSUs) und des Durchsatzes pro GSU. Sie wird jedes Mal geprüft, wenn Sie innerhalb des Zeitraums für die Kontingentdurchsetzung eine Anfrage stellen. Das ist die Häufigkeit, mit der das maximale Kontingent für den bereitgestellten Durchsatz erzwungen wird.

Zum Zeitpunkt des Eingangs einer Anfrage ist die tatsächliche Antwortgröße unbekannt. Da wir bei Echtzeitanwendungen die Reaktionsgeschwindigkeit priorisieren, wird die Größe des Ausgabetokens mithilfe des bereitgestellten Durchsatzes geschätzt. Wenn die anfängliche Schätzung das verfügbare maximale Kontingent für den bereitgestellten Durchsatz überschreitet, wird die Anfrage als „Pay-as-you-go“ verarbeitet. Andernfalls wird sie als bereitgestellter Durchsatz verarbeitet. Dazu wird die ursprüngliche Schätzung mit dem maximalen Kontingent für den bereitgestellten Durchsatz verglichen.

Wenn die Antwort generiert wird und die tatsächliche Größe des Ausgabetokens bekannt ist, werden die tatsächliche Nutzung und das Kontingent abgeglichen, indem die Differenz zwischen der Schätzung und der tatsächlichen Nutzung zum verfügbaren Kontingent für den bereitgestellten Durchsatz addiert wird.

Zeitraum für die Durchsetzung des Kontingents für bereitgestellten Durchsatz

Bei den Modellen gemini-2.0-flash-lite und gemini-2.0-flash kann die Zeitspanne für die Durchsetzung des Kontingents bis zu 30 Sekunden dauern und ist von der Auslastung abhängig. Das bedeutet, dass in einigen Fällen vorübergehend priorisierter Traffic auftritt, der Ihr Kontingent pro Sekunde überschreitet. Das Kontingent sollte jedoch nicht auf 30-Sekunden-Basis überschritten werden. Diese Zeiträume basieren auf der internen Vertex AI-Uhrzeit und sind unabhängig davon, wann Anfragen gestellt werden.

Wenn Sie beispielsweise eine GSU von gemini-2.0-flash-001 kaufen, können Sie mit einem Always-On-Durchsatz von 3.360 Tokens pro Sekunde rechnen. Im Durchschnitt darfst du 30 Sekunden lang nicht mehr als 100.800 Token ausgeben. Das wird mithilfe der folgenden Formel berechnet:

3,360 tokens per second * 30 seconds = 100,800 tokens

Wenn Sie an einem Tag nur eine Anfrage gesendet haben, für die 8.000 Tokens pro Sekunde benötigt wurden, wird sie möglicherweise trotzdem als Anfrage mit bereitgestelltem Durchsatz verarbeitet, auch wenn Sie zum Zeitpunkt der Anfrage das Limit von 3.360 Tokens pro Sekunde überschritten haben. Das liegt daran,dass die Anfrage den Grenzwert von 100.800 Tokens pro 30 Sekunden nicht überschritten hat.

Überschreitungen steuern oder Provisioned Throughput umgehen

Mit der API können Sie Überschreitungen steuern, wenn Sie den gekauften Durchsatz überschreiten, oder Provisioned Throughput pro Anfrage umgehen.

Lesen Sie sich die einzelnen Optionen durch, um herauszufinden, was Sie tun müssen, um Ihren Anwendungsfall zu erfüllen.

Standardverhalten

Wenn Sie den gekauften Durchsatz überschreiten, werden die Überschreitungen als On-Demand-Nutzung abgerechnet und zum Pay-as-you-go-Preis in Rechnung gestellt. Sobald Ihre Bestellung für Provisioned Throughput aktiv ist, wird das Standardverhalten automatisch angewendet. Sie müssen Ihren Code nicht ändern, um mit der Inanspruchnahme Ihrer Bestellung zu beginnen.

Nur Provisioned Throughput verwenden

Wenn Sie Kosten verwalten, indem Sie On-Demand-Gebühren vermeiden, verwenden Sie nur Provisioned Throughput. Bei Anfragen, die den Bestellbetrag für Provisioned Throughput überschreiten, wird der Fehler 429 zurückgegeben.

Wenn Sie Anfragen an die API senden, setzen Sie den X-Vertex-AI-LLM-Request-Type-HTTP-Header auf dedicated.

Nur Pay-as-you-go verwenden

Dies wird auch als On-Demand-Nutzung bezeichnet. Anfragen umgehen die Bestellung von Provisioned Throughput und werden direkt an Pay-as-you-go gesendet. Das kann für Tests oder Anwendungen in der Entwicklungsphase nützlich sein.

Legen Sie beim Senden von Anfragen an die API den X-Vertex-AI-LLM-Request-Type-HTTP-Header auf shared fest.

Beispiel

Gen AI SDK for Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Provisioned Throughput überwachen

Sie können die Nutzung von Provisioned Throughput selbst mithilfe einer Reihe von Messwerten überwachen, die für den Ressourcentyp aiplatform.googleapis.com/PublisherModel erfasst werden.

Die Überwachung des Traffics für den bereitgestellten Durchsatz ist eine Funktion in der öffentlichen Vorschau.

Dimensionen

Sie können nach Messwerten mithilfe der folgenden Dimensionen filtern:

Dimension Werte

type input
output

Dimension	Werte
`type`	`input` `output`
`request_type`	`dedicated`: Der Traffic wird mithilfe von Provisioned Throughput verarbeitet. `spillover`: Traffic wird als Pay-as-you-go-Kontingent verarbeitet, nachdem Sie Ihr Kontingent für den bereitgestellten Durchsatz überschritten haben. `shared`: Wenn der bereitgestellte Durchsatz aktiv ist, wird Traffic als Pay-per-Use-Kontingent mit dem freigegebenen HTTP-Header verarbeitet. Wenn Provisioned Throughput nicht aktiv ist, wird Traffic standardmäßig als „Pay-as-you-go“ verarbeitet.

request_type

dedicated: Der Traffic wird mithilfe von Provisioned Throughput verarbeitet.

spillover: Traffic wird als Pay-as-you-go-Kontingent verarbeitet, nachdem Sie Ihr Kontingent für den bereitgestellten Durchsatz überschritten haben.

shared: Wenn der bereitgestellte Durchsatz aktiv ist, wird Traffic als Pay-per-Use-Kontingent mit dem freigegebenen HTTP-Header verarbeitet. Wenn Provisioned Throughput nicht aktiv ist, wird Traffic standardmäßig als „Pay-as-you-go“ verarbeitet.

Pfadpräfix

Das Pfadpräfix für einen Messwert lautet aiplatform.googleapis.com/publisher/online_serving.

Der vollständige Pfad für den Messwert /consumed_throughput lautet beispielsweise aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Messwerte

Die folgenden Cloud Monitoring-Messwerte sind für die Gemini-Modelle in der Ressource aiplatform.googleapis.com/PublisherModel verfügbar. Verwenden Sie die Anfragetypen vom Typ dedicated, um nach der Nutzung von Provisioned Throughput zu filtern.

Messwert	Anzeigename	Beschreibung
`/dedicated_gsu_limit`	Limit (GSU)	Spezielles Limit in GSUs. Anhand dieses Messwerts können Sie das maximale Kontingent für den bereitgestellten Durchsatz in GSUs ermitteln.
`/tokens`	Tokens	Verteilung der Anzahl der Eingabe- und Ausgabetokens.
`/token_count`	Tokenanzahl	Die Summe der Eingabe- und Ausgabetoken.
`/consumed_token_throughput`	Tokendurchsatz	Durchsatznutzung, die die Abnahmerate in Tokens berücksichtigt und die Kontingentabgleichung einbezieht. Weitere Informationen finden Sie unter Kontingentprüfung für bereitgestellten Durchsatz. Anhand dieses Messwerts können Sie nachvollziehen, wie Ihr Kontingent für bereitgestellten Durchsatz verwendet wurde.
`/dedicated_token_limit`	Limit (Tokens pro Sekunde)	Spezielles Limit in Tokens pro Sekunde. Anhand dieses Messwerts können Sie das maximale Kontingent für den bereitgestellten Durchsatz für tokenbasierte Modelle ermitteln.
`/characters`	Zeichen	Verteilung der Zeichenanzahl bei Eingabe und Ausgabe.
`/character_count`	Anzahl der Zeichen	Die Summe der Zeichenanzahl in der Eingabe und Ausgabe.
`/consumed_throughput`	Zeichendurchsatz	Die Auslastung des Durchsatzes, die die Abnahmerate in Zeichen berücksichtigt und die Kontingentabgleichsfunktion Kontingentprüfung für bereitgestellten Durchsatz umfasst. Mit diesem Messwert können Sie nachvollziehen, wie Ihr Kontingent für den bereitgestellten Durchsatz verwendet wurde. Bei tokenbasierten Modellen entspricht dieser Messwert dem in Tokens verbrauchten Durchsatz multipliziert mit 4.
`/dedicated_character_limit`	Limit (Zeichen pro Sekunde)	Spezifisches Limit in Zeichen pro Sekunde. Anhand dieses Messwerts können Sie das maximale Kontingent für den bereitgestellten Durchsatz für zeichenbasierte Modelle ermitteln.
`/model_invocation_count`	Anzahl der Modellaufrufe	Anzahl der Modellausrufe (Vorhersageanfragen).
`/model_invocation_latencies`	Latenzen beim Modellaufruf	Latenz beim Modellaufruf (Vorhersagelatenz).
`/first_token_latencies`	Latenz beim ersten Token	Dauer vom Empfang der Anfrage bis zur Rückgabe des ersten Tokens.

Anthropic-Modelle haben auch einen Filter für den bereitgestellten Durchsatz, aber nur für tokens/token_count.

Dashboards

Die Standard-Monitoring-Dashboards für Provisioned Throughput enthalten Messwerte, mit denen Sie die Nutzung und Auslastung von Provisioned Throughput besser nachvollziehen können. So greifen Sie auf die Dashboards zu:

Rufen Sie in der Google Cloud Console die Seite Bereitgestellter Durchsatz auf.
Provisioned Throughput aufrufen
Wenn Sie die Auslastung des bereitgestellten Durchsatzes jedes Modells in Ihren Bestellungen aufrufen möchten, wählen Sie den Tab Auslastungsübersicht aus.
Wählen Sie in der Tabelle Ausgewählter Durchsatz – Auslastung nach Modell ein Modell aus, um weitere Messwerte für das ausgewählte Modell zu sehen.

Einschränkungen des Dashboards

Das Dashboard kann unerwartete Ergebnisse enthalten, insbesondere bei schwankenden Zugriffen, die entweder Spitzen oder seltene Zugriffe aufweisen (z. B. weniger als eine Abfrage pro Sekunde). Die folgenden Gründe können zu diesen Ergebnissen beitragen:

Zeiträume von mehr als 12 Stunden können zu einer weniger genauen Darstellung des Zeitraums führen, in dem das Kontingent erzwungen wird. Für Durchsatzmesswerte und ihre Ableitungen wie die Auslastung werden Durchschnittswerte für Alignierungszeiträume angezeigt, die auf dem ausgewählten Zeitraum basieren. Wenn der Zeitraum erweitert wird, wird auch jeder Ausrichtungszeitraum erweitert. Der Kalibrierungszeitraum erstreckt sich über die Berechnung der durchschnittlichen Nutzung. Da die Kontingenteinhaltung auf einer untergeordneten Minutenebene berechnet wird, führen Zeiträume von maximal 12 Stunden zu Daten auf Minutenebene, die mit dem tatsächlichen Zeitraum der Kontingenteinhaltung besser vergleichbar sind. Weitere Informationen zu Ausrichtungszeiträumen finden Sie unter Ausrichtung: Regularisierung innerhalb der Reihe. Weitere Informationen zu Zeiträumen finden Sie unter Zeitintervalle regularisieren.
Wenn mehrere Anfragen gleichzeitig gesendet wurden, kann es sein, dass Sie bei der Überwachungsaggregation nicht nach bestimmten Anfragen filtern können.
Bei Provisioned Throughput wird der Traffic gedrosselt, wenn eine Anfrage gestellt wurde. Die Nutzungsmesswerte werden jedoch erst nach der Kontingentabgleichung erfasst.
Die Zeiträume für die Durchsetzung von Kontingenten für bereitgestellten Durchsatz sind unabhängig von und stimmen möglicherweise nicht mit den Zeiträumen für die Aggregation von Monitoring-Daten oder den Zeiträumen für Anfragen oder Antworten überein.
Wenn keine Fehler aufgetreten sind, wird im Diagramm zur Fehlerrate möglicherweise eine Fehlermeldung angezeigt. Beispiel: Beim Anfordern der Daten ist ein Fehler aufgetreten. Eine oder mehrere Ressourcen konnten nicht gefunden werden.

Benachrichtigungen

Nachdem Sie Benachrichtigungen aktiviert haben, können Sie Standardbenachrichtigungen festlegen, um die Nutzung Ihres Traffics zu verwalten.

Benachrichtigungen aktivieren

So aktivieren Sie Benachrichtigungen im Dashboard:

Rufen Sie in der Google Cloud Console die Seite Bereitgestellter Durchsatz auf.
Provisioned Throughput aufrufen
Wenn Sie die Auslastung des bereitgestellten Durchsatzes jedes Modells in Ihren Bestellungen aufrufen möchten, wählen Sie den Tab Auslastungsübersicht aus.
Wählen Sie Empfohlene Benachrichtigungen aus. Die folgenden Benachrichtigungen werden angezeigt:
- Provisioned Throughput Usage Reached Limit
- Provisioned Throughput Utilization Exceeded 80%
- Provisioned Throughput Utilization Exceeded 90%
Sehen Sie sich die Benachrichtigungen an, die Ihnen bei der Verwaltung Ihres Traffics helfen.

Weitere Details zur Benachrichtigung ansehen

So rufen Sie weitere Informationen zu Benachrichtigungen auf:

Rufen Sie die Seite Integrationen auf.
Zu „Integrationen“
Geben Sie vertex in das Feld Filter ein und drücken Sie die Eingabetaste. Google Vertex AI wird angezeigt.
Wenn Sie weitere Informationen aufrufen möchten, klicken Sie auf Details ansehen. Der Bereich Google Vertex AI-Details wird angezeigt.
Wählen Sie den Tab Benachrichtigungen aus und wählen Sie eine Vorlage für die Benachrichtigungsrichtlinie aus.

Nächste Schritte

Fehlercode 429 beheben