动态共享配额会在 Google Cloud 服务处理的所有查询之间分配按需容量。借助此功能,您无需提交配额增加请求 (QIR)。
支持的 Google 模型版本
支持动态共享配额的 Google 模型及其版本如下:
- Gemini 1.5 Flash (
gemini-1.5-flash-002
) - Gemini 1.5 Pro (
gemini-1.5-pro-002
)
其他受支持的模型
如需了解支持动态共享配额的 Claude 模型,请参阅使用 Anthropic 中的 Claude 模型。
动态共享配额运作方式示例
Google Cloud 会查看特定区域(如北美洲)中的可用容量,然后查看有多少客户正在发送请求。假设客户 A 发送的每分钟查询次数 (QPM) 为 25 次,而客户 B 发送的 QPM 也是 25 次。该服务可支持 100 QPM。如果客户 A 将查询速率增加到 75 QPM,动态共享配额会支持此增加操作。如果客户 A 将其查询速率增加到 100 QPM,则动态共享配额会将客户 A 的查询速率降低到 75 QPM,以便以 25 QPM 继续为客户 B 提供服务。
如需排查使用动态共享配额时可能出现的错误,请参阅排查配额错误。
注意事项
注意事项 | 解决方案 |
---|---|
控制费用并防止预算超支。 | 配置自行应用的配额(称为使用方配额替换值)。如需了解详情,请参阅创建使用方配额替换值。 |
优先处理流量。 | 使用预配吞吐量。 |
监控您的用量。 | 在 Google Cloud 控制台中查看配额和系统限制。 |
后续步骤
- 如需详细了解支持动态共享配额的 Gemini 模型,请参阅 Gemini 模型。
- 如需详细了解生成式 AI 的配额和限制,请参阅 Vertex AI 上的生成式 AI 的速率限制。
- 如需详细了解 Vertex AI 的配额和限制,请参阅 Vertex AI 配额和限制。
- 如需详细了解 Google Cloud 配额和限制,请参阅了解配额值和系统限制。