Provisioned Throughput verwenden

Auf dieser Seite wird erläutert, wie Provisioned Throughput funktioniert, wie Sie Überschreitungen steuern oder Provisioned Throughput umgehen und wie Sie die Nutzung überwachen.

Funktionsweise von Provisioned Throughput

In diesem Abschnitt wird erläutert, wie Provisioned Throughput funktioniert. Dazu wird die Kontingentprüfung während des Kontingentdurchsetzungszeitraums beschrieben.

Kontingentprüfung für bereitgestellten Durchsatz

Ihr maximales Kontingent für Provisioned Throughput ist ein Vielfaches der Anzahl der gekauften Skalierungseinheiten der generativen KI (GSUs) und des Durchsatzes pro GSU. Sie wird jedes Mal geprüft, wenn Sie eine Anfrage innerhalb Ihres Zeitraums für die Kontingentdurchsetzung stellen. Das ist die Häufigkeit, mit der das maximale Kontingent für den bereitgestellten Durchsatz durchgesetzt wird.

Wenn eine Anfrage eingeht, ist die tatsächliche Antwortgröße unbekannt. Da wir die Reaktionsgeschwindigkeit für Echtzeitanwendungen priorisieren, wird die Ausgabetoken-Größe bei Provisioned Throughput geschätzt. Wenn die erste Schätzung das verfügbare maximale Kontingent für Provisioned Throughput überschreitet, wird die Anfrage als „Pay-as-you-go“ verarbeitet. Andernfalls wird sie als Provisioned Throughput verarbeitet. Dazu wird die ursprüngliche Schätzung mit Ihrem maximalen Kontingent für den bereitgestellten Durchsatz verglichen.

Wenn die Antwort generiert wurde und die tatsächliche Größe des Ausgabetokens bekannt ist, werden die tatsächliche Nutzung und das Kontingent abgeglichen, indem die Differenz zwischen der Schätzung und der tatsächlichen Nutzung zu Ihrem verfügbaren Kontingent für den bereitgestellten Durchsatz hinzugefügt wird.

Zeitraum für die Durchsetzung des Kontingents für den bereitgestellten Durchsatz

Bei den Modellen gemini-2.0-flash-lite und gemini-2.0-flash kann es bis zu 30 Sekunden dauern, bis das Kontingent durchgesetzt wird. Das kann sich ändern. Das bedeutet, dass Sie in einigen Fällen vorübergehend priorisierten Traffic haben, der Ihr Kontingent pro Sekunde überschreitet. Ihr Kontingent pro 30 Sekunden sollte jedoch nicht überschritten werden. Diese Zeiträume basieren auf der internen Uhrzeit von Vertex AI und sind unabhängig davon, wann Anfragen gestellt werden.

Wenn Sie beispielsweise eine GSU von gemini-2.0-flash-001 kaufen, können Sie mit einem Always-on-Durchsatz von 3.360 Tokens pro Sekunde rechnen. Im Durchschnitt dürfen Sie 100.800 Tokens pro 30 Sekunden nicht überschreiten. Das wird mit der folgenden Formel berechnet:

3,360 tokens per second * 30 seconds = 100,800 tokens

Wenn Sie an einem Tag nur eine Anfrage gesendet haben, für die 8.000 Tokens in einer Sekunde verbraucht wurden, wird sie möglicherweise trotzdem als Anfrage mit bereitgestelltem Durchsatz verarbeitet, obwohl Sie zum Zeitpunkt der Anfrage Ihr Limit von 3.360 Tokens pro Sekunde überschritten haben. Das liegt daran,dass die Anfrage den Grenzwert von 100.800 Tokens pro 30 Sekunden nicht überschritten hat.

Überschreitungen steuern oder Provisioned Throughput umgehen

Mit der API können Sie Überschreitungen steuern, wenn Sie den gekauften Durchsatz überschreiten, oder Provisioned Throughput pro Anfrage umgehen.

Lesen Sie sich die einzelnen Optionen durch, um herauszufinden, was Sie tun müssen, um Ihren Anwendungsfall zu erfüllen.

Standardverhalten

Wenn Sie den von Ihnen gekauften Durchsatz überschreiten, wird die Überschreitung als On-Demand-Nutzung abgerechnet und zum Pay-as-you-go-Preis in Rechnung gestellt. Sobald Ihre Bestellung für Provisioned Throughput aktiv ist, wird das Standardverhalten automatisch angewendet. Sie müssen Ihren Code nicht ändern, um Ihre Bestellung zu nutzen, solange Sie sie in der bereitgestellten Region nutzen.

Nur Provisioned Throughput verwenden

Wenn Sie Kosten verwalten, indem Sie On-Demand-Gebühren vermeiden, verwenden Sie nur Provisioned Throughput. Bei Anfragen, die den Bestellbetrag für Provisioned Throughput überschreiten, wird der Fehler 429 zurückgegeben.

Wenn Sie Anfragen an die API senden, legen Sie den HTTP-Header X-Vertex-AI-LLM-Request-Type auf dedicated fest.

Nur „Pay as you go“ verwenden

Dies wird auch als On-Demand-Nutzung bezeichnet. Anfragen umgehen die Bestellung von Provisioned Throughput und werden direkt an Pay-as-you-go gesendet. Das kann für Tests oder Anwendungen in der Entwicklungsphase nützlich sein.

Wenn Sie Anfragen an die API senden, legen Sie den HTTP-Header X-Vertex-AI-LLM-Request-Type auf shared fest.

Beispiel

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Provisioned Throughput überwachen

Sie können die Nutzung von Provisioned Throughput selbst überwachen. Dazu verwenden Sie eine Reihe von Messwerten, die für den Ressourcentyp aiplatform.googleapis.com/PublisherModel erfasst werden.

Die Überwachung des Provisioned Throughput-Traffics ist eine Funktion in der öffentlichen Vorschau.

Dimensionen

Sie können Messwerte mit den folgenden Dimensionen filtern:

Dimension Werte
type input
output
request_type

dedicated: Der Traffic wird mit dem bereitgestellten Durchsatz verarbeitet.

spillover: Der Traffic wird als Pay-as-you-go-Kontingent verarbeitet, nachdem Sie Ihr Provisioned Throughput-Kontingent überschritten haben.

shared: Wenn der bereitgestellte Durchsatz aktiv ist, wird der Traffic als Pay-as-you-go-Kontingent mit dem freigegebenen HTTP-Header verarbeitet. Wenn Provisioned Throughput nicht aktiv ist, wird der Traffic standardmäßig als „Pay as you go“ verarbeitet.

Pfadpräfix

Das Pfadpräfix für einen Messwert ist aiplatform.googleapis.com/publisher/online_serving.

Der vollständige Pfad für den Messwert /consumed_throughput ist beispielsweise aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Messwerte

Die folgenden Cloud Monitoring-Messwerte sind für die Ressource aiplatform.googleapis.com/PublisherModel für die Gemini-Modelle verfügbar. Verwenden Sie die Anfragetypen dedicated, um nach der Nutzung von Provisioned Throughput zu filtern.

Messwert Anzeigename Beschreibung
/dedicated_gsu_limit Limit (GSU) Dediziertes Limit in GSUs. Mit diesem Messwert können Sie das maximale Kontingent für Provisioned Throughput in GSUs ermitteln.
/tokens Tokens Verteilung der Anzahl der Eingabe- und Ausgabetokens.
/token_count Anzahl der Tokens Anzahl der kumulierten Eingabe- und Ausgabetokens.
/consumed_token_throughput Token-Durchsatz Durchsatznutzung, die die Abnahmerate in Tokens berücksichtigt und den Kontingentabgleich einbezieht. Weitere Informationen finden Sie unter Kontingentprüfung für Provisioned Throughput.

Mit diesem Messwert können Sie nachvollziehen, wie Ihr Kontingent für Provisioned Throughput genutzt wurde.
/dedicated_token_limit Limit (Tokens pro Sekunde) Dediziertes Limit in Tokens pro Sekunde. Mit diesem Messwert können Sie Ihr maximales Kontingent für bereitgestellten Durchsatz für tokenbasierte Modelle nachvollziehen.
/characters Zeichen Verteilung der Anzahl der Eingabe- und Ausgabezeichen.
/character_count Anzahl der Zeichen Anzahl der kumulierten Eingabe- und Ausgabeziffern.
/consumed_throughput Zeichendurchsatz Die Nutzung des Durchsatzes, die die Abnahmerate in Zeichen berücksichtigt und die Kontingentabstimmung Kontingentprüfung für Provisioned Throughput umfasst.

Mit diesem Messwert können Sie nachvollziehen, wie Ihr Kontingent für Provisioned Throughput genutzt wurde.

Bei tokenbasierten Modellen entspricht dieser Messwert dem in Tokens verbrauchten Durchsatz multipliziert mit 4.
/dedicated_character_limit Limit (Zeichen pro Sekunde) Ein dediziertes Limit in Zeichen pro Sekunde. Mit diesem Messwert können Sie Ihr maximales Kontingent für bereitgestellten Durchsatz für zeichenbasierte Modelle nachvollziehen.
/model_invocation_count Anzahl der Modellaufrufe Anzahl der Modellaufrufe (Vorhersageanfragen).
/model_invocation_latencies Latenzen beim Modellaufruf Latenz beim Modellaufruf (Vorhersagelatenz).
/first_token_latencies Latenzen für das erste Token Dauer vom Empfang der Anfrage bis zur Rückgabe des ersten Tokens.

Anthropic-Modelle haben auch einen Filter für den bereitgestellten Durchsatz, aber nur für tokens/token_count.

Dashboards

Standard-Monitoring-Dashboards für Provisioned Throughput bieten Messwerte, mit denen Sie Ihre Nutzung und die Nutzung von Provisioned Throughput besser nachvollziehen können. So greifen Sie auf die Dashboards zu:

  1. Rufen Sie in der Google Cloud Console die Seite Bereitgestellter Durchsatz auf.

    Zum bereitgestellten Durchsatz

  2. Wenn Sie die Auslastung des bereitgestellten Durchsatzes jedes Modells in Ihren Bestellungen aufrufen möchten, wählen Sie den Tab Nutzungsübersicht aus.

    In der Tabelle Auslastung des bereitgestellten Durchsatzes nach Modell sehen Sie für den ausgewählten Zeitraum Folgendes:

    • Die Gesamtzahl der GSUs, die Sie hatten.

    • Spitzendurchsatznutzung in GSUs.

    • Die durchschnittliche GSU-Nutzung.

    • Die Anzahl der Fälle, in denen Sie das Limit für den bereitgestellten Durchsatz erreicht haben.

  3. Wählen Sie in der Tabelle Provisioned Throughput utilization by model (Auslastung des bereitgestellten Durchsatzes nach Modell) ein Modell aus, um weitere messwertspezifische Informationen zum ausgewählten Modell zu sehen.

Einschränkungen des Dashboards

Im Dashboard werden möglicherweise unerwartete Ergebnisse angezeigt, insbesondere bei schwankendem Traffic, der entweder sprunghaft oder selten ist (z. B. weniger als eine Anfrage pro Sekunde). Folgende Gründe könnten zu diesen Ergebnissen beitragen:

  • Bei Zeiträumen, die länger als 12 Stunden sind, kann die Darstellung des Zeitraums, in dem das Kontingent durchgesetzt wird, weniger genau sein. Durchsatzmesswerte und ihre Ableitungen wie die Auslastung zeigen Durchschnittswerte für Abstimmungszeiträume an, die auf dem ausgewählten Zeitraum basieren. Wenn sich der Zeitraum verlängert, verlängert sich auch jeder Abgleichszeitraum. Der Abstimmungszeitraum erstreckt sich über die Berechnung der durchschnittlichen Nutzung. Da die Kontingentdurchsetzung auf Subminutenebene berechnet wird, erhalten Sie bei einem Zeitraum von maximal 12 Stunden Daten auf Minutenebene, die besser mit dem tatsächlichen Zeitraum für die Kontingentdurchsetzung vergleichbar sind. Weitere Informationen zu Ausrichtungszeiträumen finden Sie unter Ausrichtung: Regularisierung innerhalb der Reihe. Weitere Informationen zu Zeiträumen finden Sie unter Zeitintervalle regularisieren.
  • Wenn mehrere Anfragen gleichzeitig gesendet wurden, kann sich die Überwachung von Aggregationen auf die Möglichkeit auswirken, nach bestimmten Anfragen zu filtern.
  • Provisioned Throughput drosselt den Traffic, wenn eine Anfrage gestellt wurde, meldet aber Nutzungsmesswerte erst, nachdem das Kontingent abgeglichen wurde.
  • Die Durchsetzung von Kontingenten für bereitgestellten Durchsatz erfolgt unabhängig von und möglicherweise nicht in Übereinstimmung mit Überwachungsaggregationszeiträumen oder Anfrage- oder Antwortzeiträumen.
  • Wenn keine Fehler aufgetreten sind, wird möglicherweise eine Fehlermeldung im Diagramm zur Fehlerrate angezeigt. Beispiel: Beim Anfordern von Daten ist ein Fehler aufgetreten. Eine oder mehrere Ressourcen konnten nicht gefunden werden.

Genmedia-Modelle überwachen

Die Messwerte für die Modelle Veo 3 und Imagen geben den Durchsatz in Tokens an:

  • Für Veo-Modelle: 1 Token = 1 Videosekunde

  • Für Imagen-Modelle: 1 Token = 1 Bild

Wenn Sie beispielsweise die Nutzung des bereitgestellten Durchsatzes für das Veo 3-Modell überwachen, steht die Messgröße /consumed_token_throughput für den Durchsatz in Videosekunden und /dedicated_token_limit für das dedizierte Limit in Videosekunden pro Sekunde.

Benachrichtigungen

Nachdem Sie Benachrichtigungen aktiviert haben, können Sie Standardbenachrichtigungen einrichten, um die Nutzung Ihres Traffics besser zu verwalten.

Benachrichtigungen aktivieren

So aktivieren Sie Benachrichtigungen im Dashboard:

  1. Rufen Sie in der Google Cloud Console die Seite Bereitgestellter Durchsatz auf.

    Zum bereitgestellten Durchsatz

  2. Wenn Sie die Auslastung des bereitgestellten Durchsatzes jedes Modells in Ihren Bestellungen aufrufen möchten, wählen Sie den Tab Nutzungsübersicht aus.

  3. Wählen Sie Empfohlene Benachrichtigungen aus. Die folgenden Benachrichtigungen werden angezeigt:

    • Provisioned Throughput Usage Reached Limit
    • Provisioned Throughput Utilization Exceeded 80%
    • Provisioned Throughput Utilization Exceeded 90%
  4. Sehen Sie sich die Benachrichtigungen an, die Ihnen helfen, Ihren Traffic zu verwalten.

Weitere Details zu Benachrichtigungen ansehen

So rufen Sie weitere Informationen zu Benachrichtigungen auf:

  1. Rufen Sie die Seite Integrationen auf.

    Zu „Integrationen“

  2. Geben Sie vertex in das Feld Filter ein und drücken Sie die Eingabetaste. Google Vertex AI wird angezeigt.

  3. Wenn Sie weitere Informationen aufrufen möchten, klicken Sie auf Details ansehen. Der Bereich Google Vertex AI-Details wird angezeigt.

  4. Wählen Sie den Tab Benachrichtigungen aus. Dort können Sie eine Vorlage für eine Benachrichtigungsrichtlinie auswählen.

Nächste Schritte