Das dynamische gemeinsame Kontingent (Dynamic Shared Quota, DSQ) wurde eingeführt, um Ihre Pay-as-you-go-Anfragen (PayGo) flexibler an Ihre Arbeitslastanforderungen anzupassen, ohne Kontingente und Anfragen zur Kontingenterhöhung (Quota Increase Requests, QIRs) verwalten zu müssen. DSQ bearbeitet eingehende Anfragen, indem die verfügbare PayGo-Kapazität auf Kunden für ein bestimmtes Modell und eine bestimmte Region verteilt wird. Ihre Anfragen werden ausgeführt, solange Kapazität verfügbar ist, ohne ein voreingestelltes Kontingentlimit.
Unterstützte Modelle
Die folgenden Gemini-Modelle werden von DSQ unterstützt:
Funktionsweise von DSQ
Das dynamische gemeinsame Kontingent (DSQ) passt sich Ihren Zugriffsmustern und Anforderungen an, ohne dass ein vordefiniertes Kontingent festgelegt werden muss. Ihre Anfragen werden ausgeführt, solange Kapazität verfügbar ist. Bei der dynamischen Ressourcenverwaltung müssen Sie nicht bei jedem Anstieg des Traffics eine Anfrage zur Kontingenterhöhung einreichen, da es kein Kontingent gibt, das Ihre Anfragen einschränken könnte.
Um zu verhindern, dass große Trafficspitzen, die von wenigen Kunden gesendet werden, andere Kunden beeinträchtigen, die einen kleineren und gleichmäßigeren Traffic senden, verwendet DSQ einen Traffic-Kontrollmechanismus, bei dem auf Organisationsebene ein Limit für die Anzahl der Tokens pro Sekunde (TPS) festgelegt wird. Dieses TPS-Limit unterscheidet sich von Standardkontingenten und Anfragen, die über das Limit hinausgehen, werden nicht automatisch gedrosselt. Stattdessen legt DSQ unterschiedliche Prioritäten für Anfragen fest, je nachdem, ob sie unter oder über dem TPS-Limit liegen. Daher wirken sich Trafficspitzen über dem TPS-Limit nicht auf die Anfragen aus, die unter dem Limit liegen.
Gemini-Anfragen mit multimodalen Eingaben unterliegen den entsprechenden Systemgrenzwerten für die Rate, darunter Bild, Audio, Video und Dokument.
Nächste Schritte
- Weitere Informationen zu Kontingenten und Limits für Vertex AI finden Sie unter Vertex AI-Kontingente und -Limits.
- Google Cloud Weitere Informationen zu Kontingenten und Limits finden Sie unter Informationen zu Kontingentwerten und Systemlimits.