我們推出動態共用配額 (DSQ),可更彈性地處理隨用隨付 (PayGo) 要求,因應工作負載需求,不必管理配額和配額提高要求 (QIR)。使用 DSQ 時,用量沒有預先定義的配額限制。DSQ 會提供大型共用資源集區的存取權,並根據資源的即時可用性和該模型所有客戶的即時需求,動態分配資源。活躍客戶越多,每位客戶可獲得的輸送量就越少。同樣地,如果顧客較少,每位顧客的總處理量可能會較高。
支援的模型
下列 Gemini 模型及其監督式微調模型支援 DSQ:
- Gemini 2.5 Flash-Lite
預先發布版 - Gemini 2.0 Flash with Live API
預覽版 - Gemini 2.0 Flash 圖像生成功能
預先發布版 - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
下列舊版 Gemini 模型支援 DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
DSQ 的運作方式
動態共用配額 (DSQ) 會根據您的流量模式和需求進行調整,盡量減少使用上的摩擦。專案對 DSQ 資源的存取權不會受到我們任意設定的數字限制。而是取決於共用集區的整體容量,以及所有客戶目前的集體需求。這個模型旨在提供極大的彈性,讓工作負載在資源充足時爆發並耗用更多資源。反之,共用集區的所有客戶都有機會在資源可用時存取資源,無需設定每個客戶的配額。
為確保共用資源環境中的所有使用者都能享有公平穩定的體驗,動態共用配額會智慧管理要求處理方式,尤其是在獨立來源需求量極高的期間。DSQ 採用動態優先順序排定方法,而非固定上限。也就是說,雖然系統的設計可因應流量爆增,但如果單一來源的流量異常快速且大量增加,系統可能會以不同優先順序處理,而非像處理較穩定一致的流量一樣。這項精密的管理機制可確保廣泛的使用者活動和一般工作負載不會受到暫時性極端尖峰流量的影響,進而提升整體系統穩定性,並促進公平存取。
使用多模態輸入內容的 Gemini 請求會受到相應的系統速率限制,包括圖片、音訊、影片和文件。
如要確保應用程式的高可用性,並為正式版工作負載取得可預測的服務等級,請參閱「佈建輸送量」。
瞭解 DSQ 中的資源用盡 429 錯誤
我們瞭解遇到「資源用盡」429 錯誤訊息時,您可能會感到沮喪,並懷疑自己已達到某種配額限制。不過,DSQ 並非如此。這些錯誤表示在特定時間,許多使用者同時對特定類型的整體共用資源集 (例如特定區域中的特定模型) 提出極高的需求。這就像在尖峰時段搭乘非常熱門的火車。系統不會為你設定「票券限制」,但列車可能暫時客滿。這是資源爭用造成的暫時狀態,並非專案的固定限制。
DSQ 會持續管理及分配可用容量,確保公平有效。收到這類錯誤訊息時,表示該共用集區的即時需求量已超過可用供應量。與硬性配額不同,即使其他地方的資源閒置,硬性配額也會封鎖您,但 DSQ 的目標是在資源閒置時,讓您存取資源。資源耗盡錯誤反映的是整個系統目前的負載,而非帳戶上限。
建議您實作重試機制,因為這個動態環境的可用性可能會快速變更。如要進一步瞭解如何處理資源耗盡錯誤,請參閱處理 429 錯誤的指南或錯誤代碼 429。
後續步驟
- 如要瞭解 Vertex AI 的配額和限制,請參閱「Vertex AI 配額和限制」。
- 如要進一步瞭解配額和限制,請參閱「瞭解配額值和系統限制」。 Google Cloud