Esta página apresenta duas maneiras de consumir serviços de IA generativa, fornece uma lista de cotas por região e modelo e mostra como visualizar e editar suas cotas no console do Google Cloud.
Visão geral
Há duas maneiras de consumir serviços de IA generativa. Você pode escolher o pagamento por uso (PayGo) ou pagar antecipadamente usando a capacidade de processamento provisionada.
Se você estiver usando o PayGo, o uso de recursos de IA generativa está sujeito a um dos seguintes sistemas de cota, dependendo do modelo que você estiver usando:
- Os modelos anteriores ao Gemini 2.0 usam um sistema de cota padrão para cada modelo de IA generativa para garantir a imparcialidade e reduzir picos no uso e na disponibilidade de recursos. As cotas se aplicam à IA generativa nas solicitações da Vertex AI para um determinado projeto Google Cloud e região com suporte.
- Os modelos mais recentes usam a cota compartilhada dinâmica (DSQ, na sigla em inglês), que distribui dinamicamente a capacidade do PayGo disponível entre todos os clientes de um modelo e região específicos, eliminando a necessidade de definir cotas e enviar solicitações de aumento de cota. Não há cotas com DSQ.
Para garantir alta disponibilidade do aplicativo e ter níveis de serviço previsíveis para cargas de trabalho de produção, consulte Throughput provisionado.
Sistema de cotas por modelo
Modelo | Cota |
---|---|
Gemini 2.0 Flash-Lite (gemini-2.0-flash-lite-001 ) |
Consulte Cota compartilhada dinâmica (DSQ, na sigla em inglês). |
Gemini 2.0 Flash (gemini-2.0-flash-001 ) |
Consulte Cota compartilhada dinâmica (DSQ, na sigla em inglês). |
Modelos do Gemini anteriores e que não são do Gemini | Consulte o sistema de cota padrão, cotas e limites da Vertex AI. |
Acessar e editar as cotas no console do Google Cloud
Para conferir e editar as cotas no console do Google Cloud, faça o seguinte:- Acesse a página Cotas e limites do sistema.
- Para ajustar a cota, copie e cole a propriedade
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
no Filtro. Pressione Enter. - Clique nos três pontos no final da linha e selecione Editar cota.
- Insira um novo valor de cota no painel e clique em Enviar solicitação.
Acesse "Cotas e limites do sistema"
A seguir
- Para saber mais sobre a cota compartilhada dinâmica, consulte Cota compartilhada dinâmica.
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre Google Cloud cotas e limites, consulte Noções básicas sobre valores de cota e limites do sistema.