Auf dieser Seite werden zwei Möglichkeiten zur Nutzung von generativen KI-Diensten vorgestellt. Außerdem finden Sie eine Liste der Kontingente nach Region und Modell sowie eine Anleitung zum Ansehen und Bearbeiten Ihrer Kontingente in der Google Cloud Console.
Übersicht
Es gibt zwei Möglichkeiten, generative KI-Dienste zu nutzen. Sie können Pay-as-you-go (PayGo) auswählen oder im Voraus mit Provozierter Durchsatz bezahlen.
Wenn Sie PayGo verwenden, unterliegt die Nutzung von Funktionen für generative KI je nach verwendetem Modell einem der folgenden Kontingentsysteme:
- Bei Modellen vor Gemini 2.0 wird für jedes generative KI-Modell ein Standardkontingentsystem verwendet, um für Fairness zu sorgen und Spitzen bei Ressourcennutzung und -verfügbarkeit zu reduzieren. Die Kontingente gelten für Generative AI für Vertex AI-Anfragen für ein bestimmtes Google Cloud Projekt und eine unterstützte Region.
- Bei neueren Modellen wird das dynamische gemeinsame Kontingent (Dynamic Shared Quota, DSQ) verwendet. Dabei wird die verfügbare PayGo-Kapazität für ein bestimmtes Modell und eine bestimmte Region dynamisch auf alle Kunden verteilt. Es ist also nicht mehr erforderlich, Kontingente festzulegen und Anfragen zur Kontingenterhöhung zu senden. Für DSQ gibt es keine Kontingente.
Informationen zur Gewährleistung einer hohen Verfügbarkeit Ihrer Anwendung und zu vorhersehbaren Dienstebenen für Ihre Produktionsarbeitslasten finden Sie unter Vorabgezierter Durchsatz.
Kontingentsystem nach Modell
Modell | Kontingent |
---|---|
Gemini 2.0 Flash-Lite (gemini-2.0-flash-lite-001 ) |
Weitere Informationen finden Sie unter Dynamisches freigegebenes Kontingent (DSQ). |
Gemini 2.0 Flash (gemini-2.0-flash-001 ) |
Weitere Informationen finden Sie unter Dynamisches freigegebenes Kontingent (DSQ). |
Nicht-Gemini- und ältere Gemini-Modelle | Weitere Informationen finden Sie unter Vertex AI-Kontingente und -Limits. |
Kontingente in der Google Cloud Console ansehen und bearbeiten
So rufen Sie die Kontingente in der Google Cloud Console auf und bearbeiten sie:- Rufen Sie die Seite Kontingente und Systemlimits auf.
- Wenn Sie das Kontingent anpassen möchten, kopieren Sie das Attribut
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
und fügen Sie es in das Feld Filter ein. Drücken Sie die Eingabetaste. - Klicken Sie am Ende der Zeile auf das Dreipunkt-Menü und wählen Sie Kontingent bearbeiten aus.
- Geben Sie im Bereich einen neuen Kontingentwert ein und klicken Sie auf Anfrage senden.
Kontingente und Systemlimits aufrufen
Nächste Schritte
- Weitere Informationen zum dynamischen freigegebenen Kontingent finden Sie unter Dynamisches freigegebenes Kontingent.
- Weitere Informationen zu Kontingenten und Limits für Vertex AI finden Sie unter Vertex AI-Kontingente und -Limits.
- Weitere Informationen zu Google Cloud Kontingenten und Limits finden Sie unter Informationen zu Kontingentwerten und Systemlimits.