Código de erro 429

Se o número de solicitações exceder a capacidade alocada para processar solicitações, o código de erro 429 será retornado. A tabela a seguir mostra a mensagem de erro gerada por cada tipo de framework de cota:

Framework de cota Mensagem
Pagamento por utilização Resource exhausted, please try again later.
Capacidade de processamento provisionada Too many requests. Exceeded the Provisioned Throughput.

Com uma assinatura de capacidade de processamento provisionada, é possível reservar uma quantidade de capacidade de processamento para modelos específicos de IA generativa. Se você não tiver uma assinatura de taxa de transferência provisionada e os recursos não estiverem disponíveis para seu aplicativo, um código de erro 429 será retornado. Mesmo que você não tenha capacidade reservada, tente fazer a solicitação de novo. No entanto, a solicitação não é contabilizada na sua taxa de erros, conforme descrito no contrato de nível de serviço (SLA).

Para projetos que compraram a taxa de transferência provisionada, a Vertex AI mede a taxa de transferência de um projeto e reserva a quantidade comprada para o uso real do projeto.

Para a capacidade de processamento provisionada padrão, quando você usa menos do que o valor comprado, erros que poderiam ser 429 são retornados como 5XX e contam para a taxa de erro do SLA. Para o throughput provisionado de zona única, quando você usa menos do que a quantidade comprada, os erros 429 relacionados à capacidade são tratados como 5XX, mas não contam para a taxa de erros do SLA. Quando você excede a quantidade comprada, as solicitações adicionais são processadas sob demanda como pagamento por uso.

Pagamento por utilização

No framework de cota de pagamento conforme o uso, você tem as seguintes opções para resolver erros de 429:

Capacidade de processamento provisionada

Para corrigir o erro 429 gerado pela capacidade de processamento provisionada, faça o seguinte:

  • Use o exemplo de comportamento padrão, que não define um cabeçalho em solicitações de previsão. Os excedentes são processados sob demanda e faturados como pagamento por uso.
  • Aumente o número de GSUs na sua assinatura de capacidade de processamento provisionada.

A seguir