Código de erro 429

Quando o número de solicitações enviadas a um modelo excede a capacidade de processamento disponível, a Vertex AI retorna um código de erro 429, indicando que o recurso está esgotado. A mensagem de erro específica e o caminho de resolução dependem de você estar usando o serviço de pagamento por utilização ou ter comprado a taxa de transferência provisionada.

Entender o erro 429

A tabela a seguir compara como o erro 429 é processado nas estruturas de cota de pagamento por uso e de capacidade provisionada.

Pagamento por utilização Capacidade de processamento provisionada
Mensagem de erro Resource exhausted, please try again later. Too many requests. Exceeded the Provisioned Throughput.
Causa O número de solicitações excede a capacidade disponível no pool de recursos compartilhados. O número de solicitações excede a capacidade de transmissão reservada.
Impacto do SLA As solicitações que recebem um erro 429 não são contabilizadas na sua taxa de erros, conforme descrito no contrato de nível de serviço (SLA). Erros de uso abaixo da taxa de transferência comprada são retornados como 5XX. Para a capacidade de processamento provisionada padrão, os erros 5XX são contabilizados no SLA. O provisionamento de capacidade de processamento de zona única não está coberto pelo SLA. Erros de uso acima da capacidade de processamento comprada são tratados como pagamento por uso e não contam para o SLA.

Com uma assinatura de capacidade de processamento provisionada, você reserva uma quantidade específica de capacidade de processamento para seus modelos. Se você não tiver uma assinatura e os recursos compartilhados não estiverem disponíveis, vai receber um erro 429. Embora você não tenha capacidade reservada, tente fazer a solicitação novamente.

Para projetos com capacidade de processamento provisionada, a Vertex AI reserva a capacidade comprada para uso do projeto. Quando você usa menos do que a quantidade comprada, erros que poderiam ser 429 são retornados como 5XX e contam para a taxa de erros do SLA. Quando você excede a quantidade comprada, as solicitações adicionais são processadas sob demanda como pagamento por uso.

Como resolver erros 429

As etapas para resolver um erro 429 variam de acordo com a estrutura de cota.

Pagamento por utilização

No framework de cota de pagamento por uso, você tem as seguintes opções para resolver erros de 429:

  • Use o endpoint global: sempre que possível, use o endpoint global em vez de um regional.
  • Implemente uma estratégia de repetição: use a espera exponencial truncada para repetir solicitações.
  • Solicite um aumento de cota: se o modelo usar cotas, envie uma Solicitação de Aumento de Cota (QIR).
  • Suavizar o tráfego: se o modelo usar a cota compartilhada dinâmica (DSQ), suavizar o tráfego e reduzir picos grandes pode ajudar. Para mais informações, consulte Cota compartilhada dinâmica.
  • Inscrever-se na capacidade de processamento provisionada: para ter um nível de serviço mais consistente, inscreva-se na capacidade de processamento provisionada. Para mais informações, consulte Capacidade de processamento provisionada.

Capacidade de processamento provisionada

Para resolver um erro de 429 quando você tem uma assinatura de capacidade de processamento provisionada, faça o seguinte:

  • Permitir o processamento sob demanda: use o comportamento padrão não definindo um cabeçalho nas solicitações de previsão. Os excedentes são processados sob demanda e faturados como pagamento por uso.
  • Aumentar a capacidade reservada: aumente o número de GSUs na sua assinatura de capacidade de processamento provisionada.

A seguir