A cota compartilhada dinâmica (DSQ) foi criada para atender às suas solicitações de pagamento por utilização (PayGo) com mais flexibilidade para se adaptar às necessidades de carga de trabalho sem precisar gerenciar cotas e solicitações de aumento de cota (QIR). Com a DSQ, não há limites de cota predefinidos para seu uso. Em vez disso, o DSQ oferece acesso a um grande pool compartilhado de recursos, alocados dinamicamente com base na disponibilidade e demanda em tempo real em todos os clientes desse modelo. Quando mais clientes estão ativos, cada um recebe uma quantidade menor de capacidade de transmissão. Da mesma forma, se houver menos clientes, cada um poderá ter uma capacidade maior.
Modelos compatíveis
Os seguintes modelos do Gemini e os modelos ajustados supervisionados são compatíveis com a DSQ:
- Gemini 2.5 Flash-Lite
pré-lançamento - Gemini 2.0 Flash com API Live
pré-lançamento - Gemini 2.0 Flash com geração de imagens
pré-lançamento - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Os seguintes modelos legados do Gemini são compatíveis com DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
Como a DQ funciona
A cota compartilhada dinâmica (DSQ, na sigla em inglês) se adapta aos seus padrões e necessidades de tráfego e minimiza as dificuldades de uso. O acesso do seu projeto a recursos no DSQ não é limitado por um número arbitrário definido por nós. Em vez disso, ela é determinada pela capacidade geral do pool compartilhado e pela demanda coletiva atual de todos os clientes. Esse modelo foi projetado para oferecer flexibilidade significativa, permitindo que suas cargas de trabalho aumentem e consumam mais recursos quando disponíveis. Por outro lado, também permite que todos os clientes do pool compartilhado tenham a chance de acessar os recursos quando disponíveis, sem precisar configurar a cota por cliente.
Para garantir uma experiência justa e estável para todos os usuários no ambiente de recursos compartilhados, a cota compartilhada dinâmica gerencia de forma inteligente como as solicitações são processadas, especialmente durante períodos de demanda muito alta de fontes isoladas. Em vez de um limite fixo, o DSQ usa uma abordagem de priorização dinâmica. Isso significa que, embora o sistema seja projetado para acomodar picos, aumentos incomumente grandes e rápidos no tráfego de uma única origem podem ser tratados com uma prioridade diferente do tráfego mais consistente e constante. Esse gerenciamento sofisticado garante que a atividade geral do usuário e as cargas de trabalho regulares sejam protegidas contra picos extremos e transitórios, promovendo a estabilidade geral do sistema e o acesso igualitário.
As solicitações do Gemini com entradas multimodais estão sujeitas aos limites de taxa do sistema correspondentes, que incluem imagem, áudio, vídeo e documento.
Para garantir alta disponibilidade do seu aplicativo e níveis de serviço previsíveis para suas cargas de trabalho de produção, consulte Capacidade provisionada.
Entender os erros 429 de esgotamento de recursos no DSQ
Entendemos que encontrar um erro 429 "recurso esgotado" pode ser frustrante e levar você a suspeitar que está atingindo algum tipo de limite de cota. No entanto, com o DSQ, isso não acontece. Esses erros indicam que o pool compartilhado geral de recursos para esse tipo específico (por exemplo, um modelo específico em uma região específica) em um determinado momento está enfrentando uma demanda extremamente alta de muitos usuários simultaneamente. É como tentar entrar em um trem muito popular durante o horário de pico. Não há um "limite de passagens" específico para você, mas o trem pode estar cheio no momento. É um estado temporário de disputa por recursos, não um limite fixo imposto ao seu projeto.
A DSQ trabalha constantemente para gerenciar e distribuir a capacidade disponível de maneira justa e eficiente. Quando você recebe esse erro, significa que a demanda instantânea excedeu a oferta disponível no pool compartilhado. Ao contrário de uma cota rígida, em que você ficaria bloqueado mesmo se os recursos estivessem ociosos em outro lugar, o DSQ tem como objetivo dar acesso sempre que os recursos estiverem livres. O erro de esgotamento reflete a carga atual de todo o sistema, não um limite na sua conta.
Recomendamos implementar mecanismos de nova tentativa, já que a disponibilidade nesse ambiente dinâmico pode mudar rapidamente. Para mais táticas de tratamento de erros de esgotamento de recursos, consulte Um guia para lidar com erros 429 ou Código de erro 429.
A seguir
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre cotas e limites do Google Cloud , consulte Noções básicas sobre valores de cota e limites do sistema.