动态共享配额 (DSQ)

动态共享配额 (DSQ) 旨在更灵活地处理您的随用随付 (PayGo) 请求,以适应您的工作负载需求,而无需管理配额和配额增加请求 (QIR)。使用 DSQ 时,您的使用量没有预定义的配额限制。相反,DSQ 提供对大型共享资源池的访问权限,该资源池会根据该模型的所有客户的实时资源可用性和实时需求进行动态分配。活跃客户数量越多,每个客户获得的吞吐量就越低。同样,如果客户数量较少,每个客户获得的吞吐量可能会更高。

支持的模型

以下 Gemini 模型及其经过监督式微调的模型支持 DSQ:

以下旧版 Gemini 模型支持 DSQ:

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

DSQ 的运作方式

动态共享配额 (DSQ) 可根据您的流量模式和需求进行调整,最大限度地减少使用摩擦。您的项目对 DSQ 下的资源的访问权限不会受到我们设置的任意数字上限的限制。而是由共享池的总容量和所有客户当前的总需求决定。此模式旨在提供极大的灵活性,让您的工作负载能够在有可用资源时进行突增并消耗更多资源。反之,它还允许共享池中的所有客户在资源可用时有机会访问资源,而无需配置每位客户的配额。

为了确保在共享资源环境中为所有用户提供公平稳定的体验,动态共享配额会智能管理请求的处理方式,尤其是在来自孤岛来源的需求非常高峰时。DSQ 采用动态优先级方法,而不是固定上限。这意味着,虽然系统旨在适应突发流量,但来自单个来源的异常大且快速的流量激增可能采用与更稳定、更平稳的流量不同的处理优先级。这种复杂的管理可确保广泛的用户活动和常规工作负载免受暂时性极端峰值的影响,从而提升整体系统稳定性和公平访问权限。

包含多模态输入的 Gemini 请求须遵守相应的系统速率限制,包括图片音频视频文档

如需确保应用具有高可用性并为生产工作负载提供可预测的服务等级,请参阅预配吞吐量

了解 DSQ 中的资源耗尽 429 错误

我们理解,遇到“资源已用尽”429 错误会令人沮丧,并可能会让您怀疑自己是否达到了某种配额限制。不过,对于 DSQ,情况并非如此。这些错误表示,特定类型(例如特定区域中的特定模型)的总共享资源池在特定时间受到许多用户的极高需求。这就像是在高峰时段尝试搭乘一列非常热门的火车。您没有专门的“票数限制”,但火车本身可能暂时客满。这是一种暂时性的资源争用状态,而不是对项目施加的固定限制。

DSQ 会不断努力公平高效地管理和分配可用容量。如果您收到此类错误,则表示瞬时需求已超过该共享池中的可用供应。与硬配额不同(即使其他位置有空闲资源,您也会被屏蔽),DSQ 旨在让您在有空闲资源时随时访问。耗尽错误反映的是整个系统的当前负载,而不是您的账号上限。

我们建议您实现重试机制,因为此动态环境中的可用性可能会快速变化。如需了解处理资源耗尽错误的更多策略,请参阅处理 429 错误的指南错误代码 429

后续步骤