动态共享配额 (DSQ) 是一种随用随付 (PayGo) 系统,可让您访问大型共享资源池。DSQ 可根据您的工作负载需求进行调整,而无需您管理配额或配额增加请求 (QIR)。
使用 DSQ 时,没有预定义的配额限制。相反,资源会根据所有客户的实时可用性和需求动态分配。这意味着吞吐量可能会有所不同:当活跃客户较多时,吞吐量可能会较低;当活跃客户较少时,吞吐量可能会较高。
本文档介绍了 DSQ 的工作原理以及何时使用它,涵盖以下主题:
- 何时使用 DSQ,何时使用预配吞吐量:比较这两种配额选项,帮助您为工作负载选择合适的配额。
- 支持的模型:列出了支持 DSQ 的模型。
- DSQ 的运作方式:介绍了共享池中资源的动态分配。
- 了解 429 错误:说明了 DSQ 出现资源耗尽错误的原因以及如何处理这些错误。
何时使用 DSQ,何时使用预配吞吐量
下表比较了动态共享配额 (DSQ) 和预配置吞吐量,可帮助您确定哪种选项最适合您应用的需求。
选项 | 说明 | 优点 | 缺点 | 适用场景 |
---|---|---|---|---|
动态共享配额 (DSQ) | 以随用随付的方式访问大型共享模型处理资源池。 |
|
|
开发、测试以及工作负载不可预测或非关键的应用。 |
预配吞吐量 | 以固定价格预留专用数量的模型处理容量。 |
|
|
流量高且稳定或需要稳定且可预测的性能的生产环境应用。 |
支持的模型
以下 Gemini 模型及其监督式微调模型支持 DSQ:
- Gemini 2.5 Flash-Lite
- 支持 Live API 的 Gemini 2.0 Flash
预览版 - 支持图片生成的 Gemini 2.0 Flash
预览版 - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
以下旧版 Gemini 模型支持 DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
DSQ 的运作方式
动态共享配额 (DSQ) 可根据您的流量模式进行调整,并简化使用情况管理。DSQ 基于以下原则:
- 共享资源池:您的项目对资源的访问不受预定义限额的限制。而是由共享池的总容量和所有客户的当前集体需求决定。此模型允许工作负载在资源可用时突增并消耗更多资源。
- 动态确定优先级:为了帮助保持公平性和稳定性,DSQ 会智能地管理请求,尤其是在单个来源的需求量较高时。DSQ 不使用固定上限,而是采用动态优先级划分方法。这意味着,为了保护整体系统稳定性,系统可能会以不同于稳定流量的优先级来处理流量的大幅快速激增。
使用 Gemini 的多模态请求受图片、音频、视频和文档输入的相应系统速率限制约束。
如需确保应用具有高可用性并为生产工作负载提供可预测的服务等级,请参阅预配吞吐量。
了解 DSQ 下的资源耗尽 429 错误
DSQ 出现 429 Resource Exhausted
错误并不意味着您已达到项目特定的配额限制。这些错误表示,共享资源池暂时面临许多用户同时提出的高需求。
当您收到与 DSQ 相关的 429 Resource Exhausted
错误时,请注意以下事项:
- 这是资源争用问题,而非上限问题:此错误表示资源暂时处于争用状态,而不是对您的项目施加了固定限制。共享池中的瞬时需求暂时超过了可用供应量。
- 它反映的是整个系统的负载:此错误反映的是整个系统的当前负载,而不是您账号的上限。与硬性配额不同,即使资源处于空闲状态,您也无法使用,而 DSQ 旨在让您在资源空闲时随时可以使用。
为了处理这些错误,请实现重试机制,因为资源可用性可能会快速变化。如需了解有关处理 429 Resource Exhausted
错误的更多策略,请参阅处理 429 错误的指南或错误代码 429。
后续步骤
- 如需了解 Vertex AI 的配额和限制,请参阅 Vertex AI 配额和限制。
- 如需详细了解 Google Cloud 配额和系统限制,请参阅 Cloud 配额文档。