Cota compartilhada dinâmica (DSQ, na sigla em inglês)

A cota compartilhada dinâmica (DSQ, na sigla em inglês) foi introduzida para atender às suas solicitações de pagamento por uso (PayGo, na sigla em inglês) com mais flexibilidade para se adaptar às necessidades de carga de trabalho sem precisar gerenciar cotas e solicitações de aumento de cota (QIR, na sigla em inglês). Com a DSQ, não há limites de cota predefinidos no uso. Em vez disso, o DSQ oferece acesso a um grande pool compartilhado de recursos, alocado dinamicamente com base na disponibilidade em tempo real de recursos e na demanda em tempo real de todos os clientes desse modelo. Quando mais clientes estão ativos, cada cliente recebe uma quantidade menor de throughput. Da mesma forma, se houver menos clientes, cada cliente poderá ter uma capacidade maior.

Modelos compatíveis

Os seguintes modelos do Gemini e os modelos ajustados supervisionados são compatíveis com a DSQ:

Os seguintes modelos legados do Gemini são compatíveis com a DSQ:

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

Como o DSQ funciona

A cota compartilhada dinâmica (DSQ, na sigla em inglês) se adapta aos seus padrões e necessidades de tráfego e minimiza as dificuldades de uso. O acesso do seu projeto aos recursos no DSQ não é limitado por um número arbitrário definido por nós. Em vez disso, é determinado pela capacidade geral do pool compartilhado e pela demanda coletiva atual de todos os clientes. Esse modelo foi projetado para oferecer flexibilidade significativa, permitindo que seus workloads explodam e consumam mais recursos quando disponíveis. Por outro lado, ela também permite que todos os clientes do pool compartilhado tenham a chance de acessar os recursos quando disponíveis sem precisar configurar a cota por cliente.

Para garantir uma experiência justa e estável para todos os usuários no ambiente de recursos compartilhados, a cota dinâmica compartilhada gerencia de forma inteligente como as solicitações são processadas, principalmente durante períodos de demanda muito alta de fontes isoladas. Em vez de um limite fixo, o DSQ usa uma abordagem de priorização dinâmica. Isso significa que, embora o sistema seja projetado para acomodar bursts, picos anormalmente grandes e rápidos no tráfego de uma única origem podem ser processados com uma prioridade diferente do tráfego mais consistente e estável. Esse gerenciamento sofisticado garante que a ampla atividade do usuário e as cargas de trabalho regulares sejam protegidas contra picos temporários e extremos, promovendo a estabilidade geral do sistema e o acesso equitativo.

As solicitações do Gemini com entradas multimodais estão sujeitas aos limites de taxa do sistema correspondentes que incluem imagem, áudio, vídeo e documento.

Para garantir alta disponibilidade do aplicativo e ter níveis de serviço previsíveis para cargas de trabalho de produção, consulte Throughput provisionado.

Como entender os erros 429 de esgotamento de recursos no DSQ

Entendemos que encontrar um erro 429 "recurso esgotado" pode ser frustrante e fazer você suspeitar que está atingindo algum tipo de limite de cota. No entanto, com a DSQ, não é o caso. Esses erros indicam que o pool compartilhado geral de recursos para esse tipo específico (por exemplo, um modelo específico em uma região específica) em um momento específico está com uma demanda extremamente alta de muitos usuários simultaneamente. É como tentar entrar em um trem muito concorrido durante o horário de pico. Não há um "limite de passagens" específico para você, mas o trem pode estar cheio no momento. É um estado temporário de disputa por recursos, não um limite fixo imposto ao projeto.

A DSQ trabalha constantemente para gerenciar e distribuir a capacidade disponível de maneira justa e eficiente. Quando você recebe esse erro, significa que a demanda instantânea superou a oferta disponível nesse pool compartilhado. Ao contrário de uma cota rígida, em que você seria bloqueado mesmo se os recursos estivessem ociosos em outro lugar, o objetivo da DSQ é dar acesso sempre que os recursos estiverem disponíveis. O erro de esgotamento é um reflexo da carga atual de todo o sistema, não um limite na sua conta.

Recomendamos implementar mecanismos de nova tentativa, já que a disponibilidade nesse ambiente dinâmico pode mudar rapidamente. Para mais táticas de tratamento de erros de esgotamento de recursos, consulte Um guia para lidar com erros 429 ou Código de erro 429.

A seguir