我們推出動態共用配額 (DSQ),以便為您的 PayGo 要求提供更彈性的服務,讓您不必管理配額和配額提高要求 (QIR),就能因應工作負載需求。使用 DSQ 時,系統不會預先定義配額限制。相反地,DSQ 會提供存取大型共用資源集區的權限,並根據資源的即時可用性和該型號所有客戶的即時需求,動態分配資源。當更多客戶處於活躍狀態時,每位客戶的吞吐量就會降低。同樣地,如果客戶較少,每位客戶的總處理量可能會較高。
支援的模型
下列 Gemini 模型及其監督式精修模型支援 DSQ:
- Gemini 2.5 Flash-Lite
預先發布版 - Gemini 2.0 Flash 搭配 Live API
預先發布 - Gemini 2.0 Flash 搭配圖像生成功能
預先發布版 - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
下列舊版 Gemini 模型支援 DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
DSQ 的運作方式
動態共用配額 (DSQ) 會根據您的流量模式和需求調整,盡可能減少使用摩擦。您的專案在 DSQ 下對資源的存取權並未受到我們設定的任意數量限制。而是由共用資源池的整體容量和所有客戶目前的總需求決定。這個模型旨在提供極大的彈性,讓工作負載在可用時爆量並耗用更多資源。反之,這也讓共用資源池的所有客戶有機會在資源可用時存取資源,而無需設定個別客戶配額。
為確保共用資源環境中的所有使用者都能享有公平且穩定的體驗,動態共用配額會聰明地管理要求的處理方式,尤其是在來自隔離來源的需求量非常高的期間。DSQ 採用動態優先順序方法,而非固定上限。也就是說,雖然系統設計可因應流量激增,但來自單一來源的流量若出現異常大量且快速的尖峰,處理時可能會採用與較為一致、穩定流量不同的優先順序。這套精密的管理機制可確保廣泛的使用者活動和一般工作負載不受短暫的極端尖峰影響,進而提升整體系統穩定性和存取公平性。
含有多模態輸入內容的 Gemini 要求會受到相應的系統速率限制,包括圖片、音訊、影片和文件。
如要確保應用程式高度可用,並為正式版工作負載提供可預測的服務等級,請參閱「已配置的傳輸量」。
瞭解 DSQ 下的資源用盡 429 錯誤
我們瞭解遇到「資源用盡」429 錯誤會讓您感到沮喪,並可能讓您懷疑自己是否達到某種配額限制。不過,DSQ 並非如此。這些錯誤表示特定類型 (例如特定區域中的特定模型) 的整體共用資源池在特定時間點同時受到許多使用者的大量需求。這就像在尖峰時段,試圖搭乘非常熱門的火車。您沒有特定的「票數限制」,但火車可能會暫時客滿。這是資源爭用情況的暫時狀態,並非對專案施加的固定限制。
DSQ 會持續努力,以公平且有效率的方式管理及分配可用容量。如果您收到這類錯誤,表示即時需求已超過該共用資源池的可用供應量。與硬性配額不同,即使資源在其他地方閒置,您仍會遭到封鎖,DSQ 旨在讓您在資源空閒時存取資源。用盡錯誤反映的是整個系統目前的負載,而非帳戶上限。
我們建議您實作重試機制,因為這個動態環境的可用性可能會快速變動。如要進一步瞭解如何處理資源耗盡錯誤,請參閱處理 429 錯誤的指南或錯誤代碼 429。
後續步驟
- 如要瞭解 Vertex AI 的配額和限制,請參閱「Vertex AI 配額和限制」。
- 如要進一步瞭解 Google Cloud 配額和限制,請參閱「瞭解配額值和系統限制」。