动态共享配额

动态共享配额会在 Google Cloud 服务处理的所有查询之间分配按需容量。借助此功能,您无需提交配额增加请求 (QIR)。

支持的 Google 模型版本

支持动态共享配额的 Google 模型及其版本如下:

  • Gemini 1.5 Flash (gemini-1.5-flash-002)
  • Gemini 1.5 Pro (gemini-1.5-pro-002)

其他受支持的模型

如需了解支持动态共享配额的 Claude 模型,请参阅使用 Anthropic 中的 Claude 模型

动态共享配额运作方式示例

Google Cloud 会查看特定区域(如北美洲)中的可用容量,然后查看有多少客户正在发送请求。假设客户 A 发送的每分钟查询次数 (QPM) 为 25 次,而客户 B 发送的 QPM 也是 25 次。该服务可支持 100 QPM。如果客户 A 将查询速率增加到 75 QPM,动态共享配额会支持此增加操作。如果客户 A 将其查询速率增加到 100 QPM,则动态共享配额会将客户 A 的查询速率降低到 75 QPM,以便以 25 QPM 继续为客户 B 提供服务。

如需排查使用动态共享配额时可能出现的错误,请参阅排查配额错误

注意事项

注意事项 解决方案
控制费用并防止预算超支。 配置自行应用的配额(称为使用方配额替换值)。如需了解详情,请参阅创建使用方配额替换值
优先处理流量。 使用预配吞吐量
监控您的用量。 在 Google Cloud 控制台中查看配额和系统限制

后续步骤