Diese Seite wurde von der Cloud Translation API übersetzt.

Kontingente und Systemlimits für die generative KI in Vertex AI

Auf dieser Seite werden zwei Möglichkeiten zur Nutzung von Diensten für generative KI vorgestellt. Außerdem finden Sie eine Liste der Kontingente nach Region und Modell und erfahren, wie Sie Ihre Kontingente in der Google Cloud -Konsole aufrufen und bearbeiten können.

Übersicht

Es gibt zwei Möglichkeiten, generative KI-Dienste zu nutzen. Sie können Pay-as-you-go (PayGo) auswählen oder im Voraus mit bereitgestelltem Durchsatz bezahlen.

Wenn Sie PayGo verwenden, unterliegt die Nutzung von Funktionen für generative KI je nach verwendetem Modell einem der folgenden Kontingentsysteme:

Bei Modellen vor Gemini 2.0 wird ein Standardkontingentsystem für jedes generative KI-Modell verwendet, um für Fairness zu sorgen und Spitzen bei der Ressourcennutzung und ‑verfügbarkeit zu reduzieren. Kontingente gelten für Generative AI auf Vertex AI-Anfragen für ein bestimmtes Google Cloud Projekt und eine unterstützte Region.
Neuere Modelle verwenden Dynamic Shared Quota (DSQ), bei dem die verfügbare Pay-as-you-go-Kapazität dynamisch auf alle Kunden für ein bestimmtes Modell und eine bestimmte Region verteilt wird. Dadurch entfällt die Notwendigkeit, Kontingente festzulegen und Anfragen zur Kontingenterhöhung zu senden. Für DSQ gibt es keine Kontingente.

Informationen zur Gewährleistung einer hohen Verfügbarkeit Ihrer Anwendung und zur Erzielung vorhersehbarer Servicelevels für Ihre Produktionsarbeitslasten finden Sie unter Bereitgestellter Durchsatz.

Kontingentsystem nach Modell

Die folgenden Modelle unterstützen Dynamic Shared Quota (DSQ):

Gemini 2.5 Flash (Vorschau)
Gemini 2.5 Flash-Lite (Vorschau)
Gemini 2.5 Flash Image Preview (Vorschau)
Gemini 2.5 Flash-Lite
Gemini 2.0 Flash mit Live API (Vorschau)
Gemini 2.0 Flash mit Bildgenerierung (Vorschau)
Gemini 2.5 Pro
Gemini 2.5 Flash
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Die folgenden Legacy-Gemini-Modelle unterstützen DSQ:

Gemini 1.5 Pro
Gemini 1.5 Flash

Für Nicht-Gemini- und frühere Gemini-Modelle gilt das Standardkontingentsystem. Weitere Informationen finden Sie unter Vertex AI-Kontingente und -Limits.

Für MaaS-Drittanbietermodelle gelten Standardkontingente. Weitere Informationen finden Sie auf der Referenzseite des jeweiligen Modells: Partnermodelle verwenden.

Kontingente für abgestimmte Modelle

Für die Inferenzausführung mit einem abgestimmten Modell gilt dasselbe Kontingent wie für das Basismodell. Für die Inferenz mit abgestimmten Modellen gibt es kein separates Kontingent.

Beschränkungen für Texteinbettungen

Jede Anfrage kann bis zu 250 Eingabetexte (mit jeweils einer Einbettung) und 20.000 Tokens pro Anfrage enthalten. Nur die ersten 2.048 Tokens in jedem Eingabetext werden zum Berechnen der Einbettungen verwendet. Für gemini-embedding-001 wird das Kontingent unter dem Namen gemini-embedding aufgeführt.

Eingabetokens für eingebettete Inhalte pro Minute und Basismodell

Im Gegensatz zu früheren Einbettungsmodellen, die hauptsächlich durch RPM-Kontingente begrenzt wurden, wird das Kontingent für das Gemini-Einbettungsmodell durch die Anzahl der Tokens begrenzt, die pro Minute und Projekt gesendet werden können.

Kontingent	Wert
Eingabetokens für das Einbetten von Inhalten pro Minute	5.000.000

Vertex AI Agent Engine-Limits

Die folgenden Limits gelten für Vertex AI Agent Engine für ein bestimmtes Projekt in jeder Region:

Beschreibung	Limit
Vertex AI Agent Engine-Agents pro Minute erstellen, löschen oder aktualisieren	10
Vertex AI Agent Engine-Sitzungen pro Minute erstellen, löschen oder aktualisieren	100
`Query` oder `StreamQuery` Vertex AI Agent Engine pro Minute	90
Ereignis an Vertex AI Agent Engine-Sitzungen pro Minute anhängen	300
Maximale Anzahl von Vertex AI Agent Engine-Ressourcen	100
Vertex AI Agent Engine-Speicherressourcen pro Minute erstellen, löschen oder aktualisieren	100
Abrufen, Auflisten oder Abrufen aus der Vertex AI Agent Engine Memory Bank pro Minute	300
Sandbox-Umgebung (Codeausführung): „execute“-Anfragen pro Minute	1000
Sandbox-Umgebung (Codeausführung) – Einheiten pro Region	1000
A2A-Agent-Post-Anfragen wie `sendMessage` und `cancelTask` pro Minute	60
A2A-Agent-Get-Anfragen wie `getTask` und `getCard` pro Minute	600
Gleichzeitige bidirektionale Live-Verbindungen über die `BidiStreamQuery` API pro Minute	10

Batchvorhersage

Die Kontingente und Limits für Batchinferenzjobs sind in allen Regionen gleich.

Gleichzeitige Batchinferenzjob-Limits für Gemini-Modelle

Für die Batchinferenz für Gemini-Modelle gibt es keine vordefinierten Kontingentlimits. Stattdessen bietet der Batch-Dienst Zugriff auf einen großen, gemeinsamen Ressourcenpool, der dynamisch zugewiesen wird, basierend auf der Echtzeitverfügbarkeit des Modells und der Nachfrage aller Kunden nach diesem Modell. Wenn mehr Kunden aktiv sind und die Kapazität des Modells ausgeschöpft ist, werden Ihre Batchanfragen möglicherweise in die Warteschlange gestellt.

Kontingente für gleichzeitige Batchinferenzjobs für Nicht-Gemini-Modelle

In der folgenden Tabelle sind die Kontingente für die Anzahl der gleichzeitigen Batch-Inferenzjobs aufgeführt, die nicht für Gemini-Modelle gelten:

Kontingent	Wert
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

Wenn die Anzahl der eingereichten Aufgaben das zugewiesene Kontingent überschreitet, werden die Aufgaben in eine Warteschlange gestellt und verarbeitet, sobald Kontingentkapazität verfügbar ist.

Kontingente in der Google Cloud -Console ansehen und bearbeiten

So rufen Sie die Kontingente in der Google Cloud Console auf und bearbeiten sie:

Rufen Sie die Seite Kontingente und Systemlimits auf.

Zur Seite „Kontingente und Systemlimits“

Um das Kontingent anzupassen, kopieren Sie das Attribut aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs und fügen Sie es in den Filter ein. Drücken Sie die Eingabetaste.
Klicken Sie auf das Dreipunkt-Menü am Ende der Zeile und wählen Sie Kontingent bearbeiten aus.
Geben Sie im Bereich einen neuen Kontingentwert ein und klicken Sie auf Anfrage senden.

Vertex AI-RAG-Engine

Für jeden Dienst, der RAG (Retrieval Augmented Generation) mit RAG Engine ausführt, gelten die folgenden Kontingente. Das Kontingent wird als Anfragen pro Minute (Requests per Minute, RPM) gemessen.

Dienst	Kontingent	Messwert
APIs zur Datenverwaltung für die RAG Engine	60 U/min	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	600 U/min	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1.500 RPM	`Online prediction requests per base model per minute per region per base_model` Ein weiterer Filter, den Sie angeben können, ist `base_model: textembedding-gecko`

Die folgenden Begrenzungen gelten:

Dienst	Limit	Messwert
Gleichzeitige `ImportRagFiles`-Anfragen	3 RPM	`VertexRagService concurrent import requests per region`
Maximale Anzahl von Dateien pro `ImportRagFiles`-Anfrage	10.000	`VertexRagService import rag files requests per region`

Weitere Ratenbegrenzungen und Kontingente finden Sie unter Ratenbegrenzungen für generative KI in Vertex AI.

Gen AI Evaluation Service

Der Gen AI Evaluation Service verwendet gemini-2.0-flash als Standardmodell für modellbasierte Messwerte. Eine einzelne Bewertungsanfrage für einen modellbasierten Messwert kann zu mehreren zugrunde liegenden Anfragen an den Gen AI Evaluation Service führen. Das Kontingent jedes Modells wird auf Projektbasis berechnet. Das bedeutet, dass alle Anfragen, die zur Modellinferenz und zur modellbasierten Bewertung an gemini-2.0-flash gerichtet werden, zum Kontingent beitragen. Die Kontingente für den Gen AI Evaluation Service und das zugrunde liegende Judge-Modell sind in der folgenden Tabelle aufgeführt:

Kontingent anfordern	Standardkontingent
Anfragen pro Minute für den Gen AI Evaluation Service	1.000 Anfragen pro Projekt und Region
Anfragen für Onlinevorhersagen pro Minute für `base_model: gemini-2.0-flash`	Weitere Informationen finden Sie unter Kontingente nach Region und Modell.

Wenn Sie bei der Verwendung des Gen AI Evaluation Service einen Fehler im Zusammenhang mit Kontingenten erhalten, müssen Sie möglicherweise eine Kontingenterhöhung beantragen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.

Limit	Wert
Zeitlimit für Anfragen an den Gen AI Evaluation Service	60 Sekunden

Wenn Sie den Gen AI-Bewertungsdienst zum ersten Mal in einem neuen Projekt verwenden, kann es zu einer anfänglichen Einrichtungsverzögerung von bis zu zwei Minuten kommen. Wenn Ihre erste Anfrage fehlschlägt, warten Sie einige Minuten und versuchen Sie es dann noch einmal. Nachfolgende Bewertungsanfragen werden in der Regel innerhalb von 60 Sekunden abgeschlossen.

Die maximalen Eingabe- und Ausgabetokens für modellbasierte Messwerte hängen vom Modell ab, das als Judge-Modell verwendet wird. Eine Liste der Modelle finden Sie unter Google-Modelle.

Vertex AI Pipelines-Kontingente

Jeder Abstimmungsjob verwendet Vertex AI Pipelines. Weitere Informationen finden Sie unter Vertex AI Pipelines-Kontingente und -Limits.

Nächste Schritte

Weitere Informationen zum dynamischen freigegebenen Kontingent finden Sie unter Dynamisches freigegebenes Kontingent.
Informationen zu Kontingenten und Limits für Vertex AI finden Sie unter Vertex AI-Kontingente und -Limits.
Weitere Informationen zu Google Cloud -Kontingenten und Systemlimits finden Sie in der Dokumentation zu Cloud-Kontingenten.