IA generativa em cotas e limites do sistema da Vertex AI

Esta página apresenta duas maneiras de consumir serviços de IA generativa, fornece uma lista de cotas por região e modelo e mostra como visualizar e editar suas cotas no console do Google Cloud.

Visão geral

Há duas maneiras de consumir serviços de IA generativa. Você pode escolher o pagamento por uso (PayGo) ou pagar antecipadamente usando a capacidade de processamento provisionada.

Se você estiver usando o PayGo, o uso de recursos de IA generativa está sujeito a um dos seguintes sistemas de cota, dependendo do modelo que você estiver usando:

  • Os modelos anteriores ao Gemini 2.0 usam um sistema de cota padrão para cada modelo de IA generativa para garantir a imparcialidade e reduzir picos no uso e na disponibilidade de recursos. As cotas se aplicam à IA generativa nas solicitações da Vertex AI para um determinado projeto Google Cloud e região com suporte.
  • Os modelos mais recentes usam a cota compartilhada dinâmica (DSQ, na sigla em inglês), que distribui dinamicamente a capacidade do PayGo disponível entre todos os clientes de um modelo e região específicos, eliminando a necessidade de definir cotas e enviar solicitações de aumento de cota. Não há cotas com DSQ.

Para garantir alta disponibilidade do aplicativo e ter níveis de serviço previsíveis para cargas de trabalho de produção, consulte Throughput provisionado.

Sistema de cotas por modelo

Modelo Cota
Gemini 2.0 Flash-Lite (gemini-2.0-flash-lite-001) Consulte Cota compartilhada dinâmica (DSQ, na sigla em inglês).
Gemini 2.0 Flash (gemini-2.0-flash-001) Consulte Cota compartilhada dinâmica (DSQ, na sigla em inglês).
Modelos do Gemini anteriores e que não são do Gemini Consulte o sistema de cota padrão, cotas e limites da Vertex AI.

Acessar e editar as cotas no console do Google Cloud

Para conferir e editar as cotas no console do Google Cloud, faça o seguinte:
  1. Acesse a página Cotas e limites do sistema.
  2. Acesse "Cotas e limites do sistema"

  3. Para ajustar a cota, copie e cole a propriedade aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model no Filtro. Pressione Enter.
  4. Clique nos três pontos no final da linha e selecione Editar cota.
  5. Insira um novo valor de cota no painel e clique em Enviar solicitação.

A seguir