Das dynamische gemeinsame Kontingent (Dynamic Shared Quota, DSQ) wurde eingeführt, um Ihre Pay-as-you-go-Anfragen (PayGo) flexibler an Ihre Arbeitslastanforderungen anpassen zu können, ohne dass Sie Kontingente und Anfragen zur Kontingenterhöhung (Quota Increase Requests, QIR) verwalten müssen. Bei DSQ gibt es keine vordefinierten Kontingentlimits für die Nutzung. Stattdessen bietet DSQ Zugriff auf einen großen, gemeinsamen Ressourcenpool, der dynamisch auf Grundlage der Echtzeitverfügbarkeit von Ressourcen und der Echtzeitnachfrage aller Kunden dieses Modells zugewiesen wird. Wenn mehr Kunden aktiv sind, erhält jeder Kunde einen geringeren Durchsatz. Wenn es weniger Kunden gibt, kann jeder Kunde einen höheren Durchsatz erhalten.
Unterstützte Modelle
Die folgenden Gemini-Modelle und ihre überwachten feinabgestimmten Modelle unterstützen DSQ:
- Gemini 2.5 Flash-Lite
Vorschau - Gemini 2.0 Flash mit Live API
Vorschau - Gemini 2.0 Flash mit Bildgenerierung
Vorschau - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Die folgenden Legacy-Gemini-Modelle unterstützen DSQ:
- Gemini 1.5 Pro,
- Gemini 1.5 Flash
Funktionsweise von DSQ
Das dynamische gemeinsame Kontingent (Dynamic Shared Quota, DSQ) passt sich an Ihre Trafficmuster und Anforderungen an und minimiert Nutzungsprobleme. Der Zugriff Ihres Projekts auf Ressourcen unter DSQ ist nicht durch eine willkürliche Zahl begrenzt, die wir festlegen. Stattdessen wird sie durch die Gesamtkapazität des freigegebenen Pools und die aktuelle Gesamtnachfrage aller Kunden bestimmt. Dieses Modell bietet erhebliche Flexibilität, da Ihre Arbeitslasten bei Bedarf mehr Ressourcen nutzen können. Umgekehrt haben alle Kunden des freigegebenen Pools die Möglichkeit, auf Ressourcen zuzugreifen, wenn diese verfügbar sind, ohne dass ein Kontingent pro Kunde konfiguriert werden muss.
Um allen Nutzern in der Umgebung mit gemeinsam genutzten Ressourcen eine faire und stabile Nutzung zu ermöglichen, wird durch das dynamische gemeinsame Kontingent intelligent gesteuert, wie Anfragen verarbeitet werden, insbesondere bei sehr hoher Nachfrage aus einzelnen Quellen. Anstelle einer festen Obergrenze wird bei DSQ ein dynamischer Priorisierungsansatz verwendet. Das System ist zwar für Trafficspitzen ausgelegt, aber ungewöhnlich große und schnelle Spitzen bei Traffic aus einer einzelnen Quelle werden möglicherweise mit einer anderen Priorität behandelt als gleichmäßiger, stetiger Traffic. Durch diese ausgefeilte Verwaltung werden umfangreiche Nutzeraktivitäten und reguläre Arbeitslasten vor vorübergehenden, extremen Spitzen geschützt, was die allgemeine Systemstabilität und den gleichberechtigten Zugriff fördert.
Für Gemini-Anfragen mit multimodalen Eingaben gelten die entsprechenden Systemratenlimits, einschließlich Bild, Audio, Video und Dokument.
Informationen zur Gewährleistung einer hohen Verfügbarkeit Ihrer Anwendung und zur Erzielung vorhersehbarer Servicelevels für Ihre Produktionsarbeitslasten finden Sie unter Bereitgestellter Durchsatz.
Fehler vom Typ „Ressource erschöpft“ – 429-Fehler in DSQ
Wir wissen, dass die Fehlermeldung „Ressource erschöpft“ (429) frustrierend sein kann und Sie möglicherweise vermuten, dass Sie ein Kontingentlimit erreicht haben. Bei DSQ ist das jedoch nicht der Fall. Diese Fehler weisen darauf hin, dass die Gesamtheit der freigegebenen Ressourcen für diesen bestimmten Typ (z.B. ein bestimmtes Modell in einer bestimmten Region) zu einem bestimmten Zeitpunkt eine extrem hohe Nachfrage von vielen Nutzern gleichzeitig aufweist. Stellen Sie sich vor, Sie versuchen, während der Hauptverkehrszeit in einen sehr beliebten Zug einzusteigen. Es gibt kein spezielles „Ticketlimit“ für Sie, aber der Zug ist möglicherweise vorübergehend voll. Es handelt sich um einen vorübergehenden Zustand, in dem Ressourcen umkämpft sind, nicht um ein festes Limit, das für Ihr Projekt gilt.
DSQ arbeitet ständig daran, die verfügbare Kapazität fair und effizient zu verwalten und zu verteilen. Wenn Sie einen solchen Fehler erhalten, bedeutet das, dass die sofortige Nachfrage das verfügbare Angebot in diesem gemeinsamen Pool überstiegen hat. Im Gegensatz zu einem harten Kontingent, bei dem Sie auch dann blockiert werden, wenn Ressourcen an anderer Stelle nicht genutzt werden, soll DSQ Ihnen Zugriff gewähren, sobald Ressourcen frei sind. Der Erschöpfungsfehler spiegelt die aktuelle Belastung des gesamten Systems wider und ist keine Obergrenze für Ihr Konto.
Wir empfehlen, Wiederholungsmechanismen zu implementieren, da sich die Verfügbarkeit in dieser dynamischen Umgebung schnell ändern kann. Weitere Strategien zur Behandlung von Fehlern aufgrund von Ressourcenerschöpfung finden Sie unter Leitfaden zur Behandlung von 429-Fehlern oder Fehlercode 429.
Nächste Schritte
- Informationen zu Kontingenten und Limits für Vertex AI finden Sie unter Vertex AI-Kontingente und -Limits.
- Weitere Informationen zu Google Cloud Kontingenten und Limits finden Sie unter Informationen zu Kontingentwerten und Systemlimits.