Auf dieser Seite werden zwei Möglichkeiten zur Nutzung von generativen KI-Diensten vorgestellt. Außerdem finden Sie eine Liste der Kontingente nach Region und Modell sowie eine Anleitung zum Ansehen und Bearbeiten Ihrer Kontingente in der Google Cloud Console.
Übersicht
Es gibt zwei Möglichkeiten, generative KI-Dienste zu nutzen. Sie können Pay-as-you-go (PayGo) auswählen oder im Voraus mit Provozierter Durchsatz bezahlen.
Wenn Sie PayGo verwenden, unterliegt die Nutzung von Funktionen für generative KI je nach verwendetem Modell einem der folgenden Kontingentsysteme:
- Bei Modellen vor Gemini 2.0 wird für jedes generative KI-Modell ein Standardkontingentsystem verwendet, um für Fairness zu sorgen und Spitzen bei Ressourcennutzung und -verfügbarkeit zu reduzieren. Die Kontingente gelten für Anfragen für Generative AI auf Vertex AI für ein bestimmtes Google Cloud Projekt und eine unterstützte Region.
- Bei neueren Modellen wird das dynamische gemeinsame Kontingent (Dynamic Shared Quota, DSQ) verwendet. Dabei wird die verfügbare PayGo-Kapazität für ein bestimmtes Modell und eine bestimmte Region dynamisch auf alle Kunden verteilt. Es ist also nicht mehr erforderlich, Kontingente festzulegen und Anfragen zur Kontingenterhöhung zu senden. Für DSQ gibt es keine Kontingente.
Informationen zur Gewährleistung einer hohen Verfügbarkeit Ihrer Anwendung und zu vorhersehbaren Dienstebenen für Ihre Produktionsarbeitslasten finden Sie unter Vorabgezierter Durchsatz.
Kontingentsystem nach Modell
Die folgenden Modelle unterstützen das dynamische gemeinsame Kontingent (Dynamic Shared Quota, DSQ):
Bei Nicht-Gemini-Modellen und älteren Gemini-Modellen wird das Standardkontingentsystem verwendet. Weitere Informationen finden Sie unter Vertex AI-Kontingente und ‑Limits.
Kontingente für abgestimmte Modelle
Die folgenden Kontingente gelten für Generative AI von Vertex AI-Modellen für ein bestimmtes Projekt und eine bestimmte Region:
Kontingent | Wert |
---|---|
Eingeschränkte Image-Trainings-TPU V3 Pod-Kerne pro Region * unterstützte Region - europe-west4 |
64 |
Eingeschränktes Bildtraining Nvidia A100 80 GB GPUs pro Region * unterstützte Region – us-central1 * unterstützte Region – us-east4 |
8 2 |
Einschränkungen bei der Texteinbettung
Jede Anfrage für ein Modell für Text-Embeddings kann bis zu 250 Eingabetexte (1 Embedding pro Eingabetext) und 20.000 Token pro Anfrage enthalten.
Für die Berechnung der Einbettungen werden nur die ersten 8.192 Tokens in jedem Eingabetext verwendet. Jede Anfrage kann nur einen einzelnen Eingabetext enthalten.
Limits der Vertex AI Agent Engine
Für die Vertex AI Agent Engine gelten die folgenden Limits für ein bestimmtes Projekt in den einzelnen Regionen.
Beschreibung | Limit |
---|---|
Vertex AI Agent Engine pro Minute erstellen/löschen/aktualisieren | 10 |
Anzahl der Vertex AI Agent Engine-Sitzungen, die pro Minute erstellt, gelöscht oder aktualisiert werden | 100 |
Vertex AI Agent Engine-Anfragen vom Typ „Abfrage“/„StreamQuery“ pro Minute | 60 |
Ereignis pro Minute an Vertex AI Agent Engine-Sitzungen anhängen | 100 |
Maximale Anzahl von Vertex AI Agent Engine-Ressourcen | 100 |
Batchvorhersage
Die Kontingente und Limits für Batchvorhersageanfragen sind in allen Regionen gleich.Limits für gleichzeitige Anfragen für Batchvorhersagen
In der folgenden Tabelle sind die Limits für die Anzahl der gleichzeitigen Batch-Vorhersageanfragen aufgeführt:Limit | Wert |
---|---|
Gemini-Modelle | 8 |
Kontingente für Anfragen für Batchvorhersagen
In der folgenden Tabelle sind die Kontingente für die Anzahl gleichzeitiger Batch-Vorhersageanfragen aufgeführt. Diese gelten nicht für Gemini-Modelle:Kontingent | Wert |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Kontingente in der Google Cloud Console ansehen und bearbeiten
So rufen Sie die Kontingente in der Google Cloud Console auf und bearbeiten sie:- Rufen Sie die Seite Kontingente und Systemlimits auf.
- Wenn Sie das Kontingent anpassen möchten, kopieren Sie das Attribut
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
und fügen Sie es in das Feld Filter ein. Drücken Sie die Eingabetaste. - Klicken Sie am Ende der Zeile auf das Dreipunkt-Menü und wählen Sie Kontingent bearbeiten aus.
- Geben Sie im Bereich einen neuen Kontingentwert ein und klicken Sie auf Anfrage senden.
Kontingente und Systemlimits aufrufen
Vertex AI-RAG-Engine
Für jeden Dienst, der die Retrieval-Augmented Generation (RAG) mit der RAG Engine durchführt, gelten die folgenden Kontingente. Das Kontingent wird in Anfragen pro Minute (RPM) gemessen.Dienst | Kontingent | Messwert |
---|---|---|
APIs zur Datenverwaltung der RAG Engine | 60 U/min | VertexRagDataService requests per minute per region |
RetrievalContexts API |
1.500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1.500 RPM | Online prediction requests per base model per minute per region per base_model Sie können auch den Filter base_model: textembedding-gecko angeben. |
Dienst | Limit | Messwert |
---|---|---|
Gleichzeitige ImportRagFiles -Anfragen |
3 U/min | VertexRagService concurrent import requests per region |
Maximale Anzahl von Dateien pro ImportRagFiles -Anfrage |
10.000 | VertexRagService import rag files requests per region |
Weitere Informationen zu den Ratenbegrenzungen und Kontingenten finden Sie unter Ratenbegrenzungen für generative KI in Vertex AI.
Gen AI Evaluation Service
Der Gen AI-Bewertungsdienst verwendetgemini-2.0-flash
als Standardbewertungsmodell für modellbasierte Messwerte.
Eine einzelne Bewertungsanfrage für einen modellbasierten Messwert kann zu mehreren zugrunde liegenden Anfragen an den Gen AI Evaluation Service führen. Das Kontingent jedes Modells wird auf Projektbasis berechnet. Das bedeutet, dass alle Anfragen, die zur Modellinferenz und zur modellbasierten Bewertung an gemini-2.0-flash
gerichtet werden, zum Kontingent beitragen.
Die Kontingente für den Gen AI Evaluation Service und das zugrunde liegende Bewertungsmodell sind in der folgenden Tabelle aufgeführt:
Kontingent anfordern | Standardkontingent |
---|---|
Anfragen an den Gen AI Evaluation Service pro Minute | 1.000 Anfragen pro Projekt und Region |
Anfragen für Onlinevorhersagen pro Minute fürbase_model: gemini-2.0-flash |
Weitere Informationen finden Sie unter Kontingente nach Region und Modell. |
Wenn Sie bei der Verwendung des Gen AI Evaluation Service einen Fehler im Zusammenhang mit Kontingenten erhalten, müssen Sie möglicherweise eine Kontingenterhöhung beantragen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.
Limit | Wert |
---|---|
Zeitlimit für Gen AI Evaluation Service-Anfragen | 60 Sekunden |
Wenn Sie den Gen AI-Bewertungsdienst zum ersten Mal in einem neuen Projekt verwenden, kann die Ersteinrichtung bis zu zwei Minuten dauern. Wenn die erste Anfrage fehlschlägt, warten Sie einige Minuten und versuchen Sie es dann noch einmal. Nachfolgende Bewertungsanfragen werden in der Regel innerhalb von 60 Sekunden abgeschlossen.
Die maximalen Eingabe- und Ausgabetokens für modellbasierte Messwerte hängen vom Modell ab, das als Bewertungsmodell verwendet wird. Eine Liste der Modelle finden Sie unter Google-Modelle.
Vertex AI Pipelines-Kontingente
Jeder Abstimmungsjob verwendet Vertex AI Pipelines. Weitere Informationen finden Sie unter Vertex AI Pipelines-Kontingente und -Limits.
Nächste Schritte
- Weitere Informationen zum dynamischen freigegebenen Kontingent finden Sie unter Dynamisches freigegebenes Kontingent.
- Weitere Informationen zu Kontingenten und Limits für Vertex AI finden Sie unter Vertex AI-Kontingente und -Limits.
- Google Cloud Weitere Informationen zu Kontingenten und Limits finden Sie unter Informationen zu Kontingentwerten und Systemlimits.