本页面介绍了动态共享配额 (DSQ),以及 DSQ 与预配吞吐量的区别。
动态共享配额简介
动态共享配额 (DSQ) 会针对特定模型,在 Google Cloud 服务处理的所有查询之间分配可用的按需容量。借助此功能,您无需设置配额限制和提交配额增加请求 (QIR)。
DSQ 会处理所有客户对同一区域或多区域端点的请求。配额会被移除,可用容量会分配给每个项目。
预配吞吐量是确保应用具有高可用性并为生产工作负载提供可预测服务等级的唯一方式。如需详细了解预配吞吐量,请参阅预配吞吐量。
支持的模型
本部分列出了支持动态共享配额 (DSQ) 的模型,这些模型会默认启用 DSQ。
Google 模型
下表列出了支持 DSQ 的 Google 模型(及版本):
模型 | DSQ 发布日期 | 状态 |
---|---|---|
Gemini 2.0 Flash-Lite (gemini-2.0-flash-lite-001 ) |
2025 年 2 月 25 日 | 直播 |
Gemini 2.0 Flash (gemini-2.0-flash-001 ) |
2025 年 2 月 5 日 | 有效 |
Gemini 1.5 Flash (gemini-1.5-flash-002 ) |
2024 年 9 月 24 日 | 有效 |
Gemini 1.5 Pro (gemini-1.5-pro-002 ) |
2024 年 9 月 24 日 | 有效 |
DSQ 配额未列在 Google Cloud 控制台的配额和系统限制 页面中。
排查 DSQ 错误
如果没有足够的容量来处理您的查询,您可能会收到 429 错误。如需排查可能出现的错误,请参阅错误代码 429。
后续步骤
- 如需详细了解支持 DSQ 的 Gemini 模型,请参阅 Gemini 模型。
- 如需详细了解生成式 AI 的配额和限制,请参阅 Vertex AI 上的生成式 AI 的速率限制。
- 如需详细了解 Vertex AI 的配额和限制,请参阅 Vertex AI 配额和限制。
- 如需详细了解 Google Cloud 配额和限制,请参阅了解配额值和系统限制。