如果您的请求数量超出分配用于处理请求的容量,则系统会返回错误代码 429
。下表显示了每种类型的配额框架生成的错误消息:
配额框架 | 消息 |
---|---|
随用随付 | Resource exhausted, please try again later. |
预配的吞吐量 | Too many requests. Exceeded the Provisioned Throughput. |
使用预配的吞吐量订阅时,您可以为特定的生成式 AI 模型预留该吞吐量。如果您没有预配的吞吐量订阅,并且应用没有可用的资源,则系统会返回错误代码 429
。虽然您没有预留容量,但可以再次尝试提交请求。不过,该请求不会计入错误率,如服务等级协议 (SLA) 中所述。
对于已购买预配的吞吐量的项目,Vertex AI 会衡量项目的吞吐量并预留该吞吐量,以使项目可用。如果您使用的吞吐量少于购买的吞吐量,则本可能以 429
返回的错误会以 5XX
返回,并计入 SLA 中所述的错误率,除非请求使用了上下文缓存。如果使用了上下文缓存,系统会将预配吞吐量请求视为随用随付。
随用随付
在随用随付配额框架中,您可以通过以下方式来解决 429
错误:
- 使用截断指数退避算法实现重试策略。
- 如果您已设置使用方替换值并配置它以控制费用,请提高此限制。如需了解详情,请参阅动态共享配额。
- 订阅预配的吞吐量,以实现更一致的服务等级。如需了解详情,请参阅预配吞吐量。
预配的吞吐量
如需更正预配的吞吐量产生的 429 错误,请执行以下操作:
- 使用默认行为示例,该示例不会在预测请求中设置标头。任何超额费用按需处理,并且随用随付。
- 增加预配的吞吐量订阅中的 GSU 数量。
后续步骤
- 如需详细了解动态共享配额,请参阅动态共享配额。
- 如需详细了解预配吞吐量,请参阅预配吞吐量。
- 如需了解 Vertex AI 的配额和限制,请参阅 Vertex AI 配额和限制。
- 如需详细了解 Google Cloud 配额和限制,请参阅了解配额值和系统限制。