Se o número de solicitações exceder a capacidade alocada para processar
solicitações, o código de erro 429
será retornado. A tabela a seguir mostra a
mensagem de erro gerada por cada tipo de framework de cota:
Framework de cota | Mensagem |
---|---|
Pagamento por utilização | Resource exhausted, please try again later. |
Capacidade de processamento provisionada | Too many requests. Exceeded the Provisioned Throughput. |
Com uma assinatura de capacidade de processamento provisionada, é possível reservar uma
quantidade de capacidade de processamento para modelos específicos de IA generativa. Se você não tiver uma
assinatura do throughput provisionado e os recursos não estiverem disponíveis
para o aplicativo, um código de erro 429
será retornado. Mesmo que você não
tenha capacidade reservada, tente fazer a solicitação novamente. No entanto, a solicitação não é contabilizada na taxa de erros, conforme descrito no contrato de nível de serviço (SLA).
Para projetos que compraram a Throughput provisionada,
a Vertex AI mede a throughput de um projeto e reserva a quantidade de throughput comprada para o uso real do projeto. Quando você usa menos do que a capacidade de processamento comprada, os erros que poderiam retornar como 429
são retornados como 5XX
e são contados como parte da taxa de erros descrita no SLA. Quando você usa mais do que a capacidade de processamento comprada, as solicitações adicionais são processadas como pagamento por uso.
Pagamento por utilização
No framework de cota de pagamento conforme o uso, você tem as seguintes opções para resolver erros 429
:
- Implemente uma estratégia de repetição usando a espera exponencial truncada.
- Se o modelo usar cotas, você poderá enviar uma solicitação de aumento de cota (QIR, na sigla em inglês). Se seu modelo usa a cota compartilhada dinâmica, suavizar o tráfego e reduzir picos grandes pode ajudar. Para mais informações, consulte Cota compartilhada dinâmica (DSQ, na sigla em inglês).
- Assine a capacidade de processamento provisionada para ter um nível de serviço mais consistente. Para mais informações, consulte Capacidade de processamento provisionada.
Capacidade de processamento provisionada
Para corrigir o erro 429 gerado pela capacidade de processamento provisionada, faça o seguinte:
- Use o exemplo de comportamento padrão, que não define um cabeçalho nas solicitações de previsão. Qualquer uso extra é processado sob demanda e faturado como pagamento por uso.
- Aumente o número de GSUs na sua assinatura de capacidade de processamento provisionada.
A seguir
- Para saber mais sobre a cota compartilhada dinâmica, consulte Cota compartilhada dinâmica.
- Para saber mais sobre a capacidade provisionada, consulte Capacidade provisionada.
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre Google Cloud cotas e limites, consulte Noções básicas sobre valores de cota e limites do sistema.
- Para saber mais sobre erros de API, consulte Erros de API.