Kontingente und Systemlimits für die generative KI in Vertex AI

Auf dieser Seite werden zwei Möglichkeiten zur Nutzung von generativen KI-Diensten vorgestellt. Außerdem finden Sie eine Liste der Kontingente nach Region und Modell sowie eine Anleitung zum Ansehen und Bearbeiten Ihrer Kontingente in der Google Cloud Console.

Übersicht

Es gibt zwei Möglichkeiten, generative KI-Dienste zu nutzen. Sie können Pay-as-you-go (PayGo) auswählen oder im Voraus mit Provozierter Durchsatz bezahlen.

Wenn Sie PayGo verwenden, unterliegt die Nutzung von Funktionen für generative KI je nach verwendetem Modell einem der folgenden Kontingentsysteme:

  • Bei Modellen vor Gemini 2.0 wird für jedes generative KI-Modell ein Standardkontingentsystem verwendet, um für Fairness zu sorgen und Spitzen bei Ressourcennutzung und -verfügbarkeit zu reduzieren. Die Kontingente gelten für Anfragen für Generative AI auf Vertex AI für ein bestimmtes Google Cloud Projekt und eine unterstützte Region.
  • Bei neueren Modellen wird das dynamische gemeinsame Kontingent (Dynamic Shared Quota, DSQ) verwendet. Dabei wird die verfügbare PayGo-Kapazität für ein bestimmtes Modell und eine bestimmte Region dynamisch auf alle Kunden verteilt. Es ist also nicht mehr erforderlich, Kontingente festzulegen und Anfragen zur Kontingenterhöhung zu senden. Für DSQ gibt es keine Kontingente.

Informationen zur Gewährleistung einer hohen Verfügbarkeit Ihrer Anwendung und zu vorhersehbaren Dienstebenen für Ihre Produktionsarbeitslasten finden Sie unter Vorabgezierter Durchsatz.

Kontingentsystem nach Modell

Die folgenden Modelle unterstützen das dynamische gemeinsame Kontingent (Dynamic Shared Quota, DSQ):

Bei Nicht-Gemini-Modellen und älteren Gemini-Modellen wird das Standardkontingentsystem verwendet. Weitere Informationen finden Sie unter Vertex AI-Kontingente und ‑Limits.

Kontingente für abgestimmte Modelle

Die folgenden Kontingente gelten für Generative AI von Vertex AI-Modellen für ein bestimmtes Projekt und eine bestimmte Region:

Kontingent Wert
Eingeschränkte Image-Trainings-TPU V3 Pod-Kerne pro Region
* unterstützte Region - europe-west4
64
Eingeschränktes Bildtraining Nvidia A100 80 GB GPUs pro Region
* unterstützte Region – us-central1
* unterstützte Region – us-east4

8
2
* Feinabstimmungsszenarien haben Beschleunigerreservierungen in bestimmten Regionen. Kontingente für die Feinabstimmung werden unterstützt und müssen in bestimmten Regionen angefordert werden.

Einschränkungen bei der Texteinbettung

Jede Anfrage für ein Modell für Text-Embeddings kann bis zu 250 Eingabetexte (1 Embedding pro Eingabetext) und 20.000 Token pro Anfrage enthalten.

Für die Berechnung der Einbettungen werden nur die ersten 8.192 Tokens in jedem Eingabetext verwendet. Jede Anfrage kann nur einen einzelnen Eingabetext enthalten.

Limits der Vertex AI Agent Engine

Für die Vertex AI Agent Engine gelten die folgenden Limits für ein bestimmtes Projekt in den einzelnen Regionen.

Beschreibung Limit
Vertex AI Agent Engine pro Minute erstellen/löschen/aktualisieren 10
Anzahl der Vertex AI Agent Engine-Sitzungen, die pro Minute erstellt, gelöscht oder aktualisiert werden 100
Vertex AI Agent Engine-Anfragen vom Typ „Abfrage“/„StreamQuery“ pro Minute 60
Ereignis pro Minute an Vertex AI Agent Engine-Sitzungen anhängen 100
Maximale Anzahl von Vertex AI Agent Engine-Ressourcen 100

Batchvorhersage

Die Kontingente und Limits für Batchvorhersageanfragen sind in allen Regionen gleich.

Limits für gleichzeitige Anfragen für Batchvorhersagen

In der folgenden Tabelle sind die Limits für die Anzahl der gleichzeitigen Batch-Vorhersageanfragen aufgeführt:
Limit Wert
Gemini-Modelle 8
Wenn die Anzahl der eingereichten Aufgaben das zugewiesene Limit überschreitet, werden die Aufgaben in eine Warteschlange gestellt und verarbeitet, sobald die Limitkapazität verfügbar ist.

Kontingente für Anfragen für Batchvorhersagen

In der folgenden Tabelle sind die Kontingente für die Anzahl gleichzeitiger Batch-Vorhersageanfragen aufgeführt. Diese gelten nicht für Gemini-Modelle:
Kontingent Wert
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
Wenn die Anzahl der eingereichten Aufgaben das zugewiesene Kontingent überschreitet, werden die Aufgaben in eine Warteschlange gestellt und verarbeitet, sobald Kontingentkapazität verfügbar ist.

Kontingente in der Google Cloud Console ansehen und bearbeiten

So rufen Sie die Kontingente in der Google Cloud Console auf und bearbeiten sie:
  1. Rufen Sie die Seite Kontingente und Systemlimits auf.
  2. Kontingente und Systemlimits aufrufen

  3. Wenn Sie das Kontingent anpassen möchten, kopieren Sie das Attribut aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model und fügen Sie es in das Feld Filter ein. Drücken Sie die Eingabetaste.
  4. Klicken Sie am Ende der Zeile auf das Dreipunkt-Menü und wählen Sie Kontingent bearbeiten aus.
  5. Geben Sie im Bereich einen neuen Kontingentwert ein und klicken Sie auf Anfrage senden.

Vertex AI-RAG-Engine

Für jeden Dienst, der die Retrieval-Augmented Generation (RAG) mit der RAG Engine durchführt, gelten die folgenden Kontingente. Das Kontingent wird in Anfragen pro Minute (RPM) gemessen.
Dienst Kontingent Messwert
APIs zur Datenverwaltung der RAG Engine 60 U/min VertexRagDataService requests per minute per region
RetrievalContexts API 1.500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1.500 RPM Online prediction requests per base model per minute per region per base_model

Sie können auch den Filter base_model: textembedding-gecko
angeben.
Die folgenden Begrenzungen gelten:
Dienst Limit Messwert
Gleichzeitige ImportRagFiles-Anfragen 3 U/min VertexRagService concurrent import requests per region
Maximale Anzahl von Dateien pro ImportRagFiles-Anfrage 10.000 VertexRagService import rag files requests per region

Weitere Informationen zu den Ratenbegrenzungen und Kontingenten finden Sie unter Ratenbegrenzungen für generative KI in Vertex AI.

Gen AI Evaluation Service

Der Gen AI-Bewertungsdienst verwendet gemini-2.0-flash als Standardbewertungsmodell für modellbasierte Messwerte. Eine einzelne Bewertungsanfrage für einen modellbasierten Messwert kann zu mehreren zugrunde liegenden Anfragen an den Gen AI Evaluation Service führen. Das Kontingent jedes Modells wird auf Projektbasis berechnet. Das bedeutet, dass alle Anfragen, die zur Modellinferenz und zur modellbasierten Bewertung an gemini-2.0-flash gerichtet werden, zum Kontingent beitragen. Die Kontingente für den Gen AI Evaluation Service und das zugrunde liegende Bewertungsmodell sind in der folgenden Tabelle aufgeführt:
Kontingent anfordern Standardkontingent
Anfragen an den Gen AI Evaluation Service pro Minute 1.000 Anfragen pro Projekt und Region
Anfragen für Onlinevorhersagen pro Minute für
base_model: gemini-2.0-flash
Weitere Informationen finden Sie unter Kontingente nach Region und Modell.

Wenn Sie bei der Verwendung des Gen AI Evaluation Service einen Fehler im Zusammenhang mit Kontingenten erhalten, müssen Sie möglicherweise eine Kontingenterhöhung beantragen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.

Limit Wert
Zeitlimit für Gen AI Evaluation Service-Anfragen 60 Sekunden

Wenn Sie den Gen AI-Bewertungsdienst zum ersten Mal in einem neuen Projekt verwenden, kann die Ersteinrichtung bis zu zwei Minuten dauern. Wenn die erste Anfrage fehlschlägt, warten Sie einige Minuten und versuchen Sie es dann noch einmal. Nachfolgende Bewertungsanfragen werden in der Regel innerhalb von 60 Sekunden abgeschlossen.

Die maximalen Eingabe- und Ausgabetokens für modellbasierte Messwerte hängen vom Modell ab, das als Bewertungsmodell verwendet wird. Eine Liste der Modelle finden Sie unter Google-Modelle.

Vertex AI Pipelines-Kontingente

Jeder Abstimmungsjob verwendet Vertex AI Pipelines. Weitere Informationen finden Sie unter Vertex AI Pipelines-Kontingente und -Limits.

Nächste Schritte