Quando o número de solicitações enviadas a um modelo excede a capacidade de processamento disponível, a Vertex AI retorna um código de erro 429
, indicando que o recurso está esgotado. A mensagem de erro específica e o caminho de resolução dependem de você estar usando o serviço de pagamento por utilização ou ter comprado a taxa de transferência provisionada.
Entender o erro 429
A tabela a seguir compara como o erro 429
é processado nas estruturas de cota de pagamento por uso e de capacidade provisionada.
Pagamento por utilização | Capacidade de processamento provisionada | |
---|---|---|
Mensagem de erro | Resource exhausted, please try again later. |
Too many requests. Exceeded the Provisioned Throughput. |
Causa | O número de solicitações excede a capacidade disponível no pool de recursos compartilhados. | O número de solicitações excede a capacidade de transmissão reservada. |
Impacto do SLA | As solicitações que recebem um erro 429 não são contabilizadas na sua taxa de erros, conforme descrito no contrato de nível de serviço (SLA). |
Erros de uso abaixo da taxa de transferência comprada são retornados como 5XX . Para a capacidade de processamento provisionada padrão, os erros 5XX são contabilizados no SLA. O provisionamento de capacidade de processamento de zona única não está coberto pelo SLA. Erros de uso acima da capacidade de processamento comprada são tratados como pagamento por uso e não contam para o SLA. |
Com uma assinatura de capacidade de processamento provisionada, você reserva uma quantidade específica de capacidade de processamento para seus modelos. Se você não tiver uma assinatura e os recursos compartilhados não estiverem disponíveis, vai receber um erro 429
. Embora você não tenha capacidade reservada, tente fazer a solicitação novamente.
Para projetos com capacidade de processamento provisionada, a Vertex AI reserva a capacidade comprada para uso do projeto. Quando você usa menos do que a quantidade comprada, erros que poderiam ser 429
são retornados como 5XX
e contam para a taxa de erros do SLA. Quando você excede a quantidade comprada, as solicitações adicionais são processadas sob demanda como pagamento por uso.
Como resolver erros 429
As etapas para resolver um erro 429
variam de acordo com a estrutura de cota.
Pagamento por utilização
No framework de cota de pagamento por uso, você tem as seguintes opções para resolver erros de 429
:
- Use o endpoint global: sempre que possível, use o endpoint global em vez de um regional.
- Implemente uma estratégia de repetição: use a espera exponencial truncada para repetir solicitações.
- Solicite um aumento de cota: se o modelo usar cotas, envie uma Solicitação de Aumento de Cota (QIR).
- Suavizar o tráfego: se o modelo usar a cota compartilhada dinâmica (DSQ), suavizar o tráfego e reduzir picos grandes pode ajudar. Para mais informações, consulte Cota compartilhada dinâmica.
- Inscrever-se na capacidade de processamento provisionada: para ter um nível de serviço mais consistente, inscreva-se na capacidade de processamento provisionada. Para mais informações, consulte Capacidade de processamento provisionada.
Capacidade de processamento provisionada
Para resolver um erro de 429
quando você tem uma assinatura de capacidade de processamento provisionada, faça o seguinte:
- Permitir o processamento sob demanda: use o comportamento padrão não definindo um cabeçalho nas solicitações de previsão. Os excedentes são processados sob demanda e faturados como pagamento por uso.
- Aumentar a capacidade reservada: aumente o número de GSUs na sua assinatura de capacidade de processamento provisionada.
A seguir
- Para saber mais sobre a cota compartilhada dinâmica, consulte Cota compartilhada dinâmica.
- Para saber mais sobre a capacidade de processamento provisionada, consulte Capacidade de processamento provisionada.
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre cotas e limites do Google Cloud, consulte Noções básicas sobre valores de cota e limites do sistema.
- Para saber mais sobre erros de API, consulte Erros de API.