Esta página apresenta duas maneiras de consumir serviços de IA generativa, fornece uma lista de cotas por região e modelo e mostra como visualizar e editar suas cotas no console Google Cloud .
Visão geral
Há duas maneiras de consumir serviços de IA generativa. Você pode escolher o pagamento por uso (PayGo) ou pagar antecipadamente usando a capacidade de processamento provisionada.
Se você estiver usando o PayGo, o uso de recursos de IA generativa está sujeito a um dos seguintes sistemas de cota, dependendo do modelo que você estiver usando:
- Os modelos anteriores ao Gemini 2.0 usam um sistema de cota padrão para cada modelo de IA generativa para garantir a imparcialidade e reduzir picos no uso e na disponibilidade de recursos. As cotas se aplicam à IA generativa nas solicitações da Vertex AI para um determinado projeto Google Cloud e região com suporte.
- Os modelos mais recentes usam a cota compartilhada dinâmica (DSQ, na sigla em inglês), que distribui dinamicamente a capacidade do PayGo disponível entre todos os clientes de um modelo e região específicos, eliminando a necessidade de definir cotas e enviar solicitações de aumento de cota. Não há cotas com DSQ.
Para garantir alta disponibilidade do aplicativo e ter níveis de serviço previsíveis para cargas de trabalho de produção, consulte Throughput provisionado.
Sistema de cotas por modelo
Os seguintes modelos oferecem suporte à Cota compartilhada dinâmica (DSQ, na sigla em inglês):
Os seguintes modelos legados do Gemini são compatíveis com a DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
Modelos do Gemini anteriores e que não são do Gemini usam o sistema de cota padrão. Para mais informações, consulte Cotas e limites da Vertex AI.
Cotas de modelos ajustados
As cotas a seguir se aplicam à IA generativa em modelos ajustados pela Vertex AI para determinado projeto e região:
Cota | Valor |
---|---|
Núcleos do pod da TPU V3 de treinamento de imagens restritos por região * Região compatível: europe-west4 |
64 |
Treinamento de imagens restrito: GPUs Nvidia A100 de 80 GB por região * Região compatível: us-central1 * Região compatível: us-east4 |
8 2 |
Limites de incorporação de texto
Cada solicitação de modelo de inserção de texto pode ter até 250 textos de entrada (gerando 1 inserção por texto de entrada) e 20.000 tokens por solicitação.
Apenas os primeiros 8.192 tokens em cada texto de entrada são usados para calcular as informações incorporadas. Cada solicitação pode incluir apenas um texto de entrada.
Limites do Vertex AI Agent Engine
Os limites a seguir se aplicam ao Vertex AI Agent Engine para um determinado projeto em cada região.
Descrição | Limite |
---|---|
Criar/excluir/atualizar o Vertex AI Agent Engine por minuto | 10 |
Criar/excluir/atualizar sessões do Vertex AI Agent Engine por minuto | 100 |
Consulta/StreamQuery Vertex AI Agent Engine por minuto | 60 |
Acrescentar evento às sessões do Vertex AI Agent Engine por minuto | 100 |
Número máximo de recursos do Vertex AI Agent Engine | 100 |
Previsão em lote
As cotas e os limites para jobs de predição em lote são os mesmos em todas as regiões.Limites de jobs de previsão em lote simultâneos
A tabela a seguir lista os limites para o número de trabalhos de previsão em lote simultâneos:Limite | Valor |
---|---|
Solicitações de previsão em lote simultâneas, por região, para modelos do Gemini | 8 |
Cotas de jobs de previsão em lote simultâneos
A tabela a seguir lista as cotas para o número de jobs de previsão em lote simultâneos, que não se aplicam aos modelos do Gemini:Cota | Valor |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Conferir e editar as cotas no console do Google Cloud
Para conferir e editar as cotas no console Google Cloud , faça o seguinte:- Acesse a página Cotas e limites do sistema.
- Para ajustar a cota, copie e cole a propriedade
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
no Filtro. Pressione Enter. - Clique nos três pontos no final da linha e selecione Editar cota.
- Insira um novo valor de cota no painel e clique em Enviar solicitação.
Acesse "Cotas e limites do sistema"
Mecanismo de RAG da Vertex AI
Para que cada serviço realize a geração aumentada de recuperação (RAG) usando o mecanismo RAG, as cotas a seguir se aplicam, sendo a cota medida como solicitações por minuto (RPM).Serviço | Cota | Métrica |
---|---|---|
APIs de gerenciamento de dados do mecanismo RAG | 60 RPM | VertexRagDataService requests per minute per region |
API RetrievalContexts |
1.500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1.500 RPM | Online prediction requests per base model per minute per region per base_model Outro filtro que você pode especificar é base_model: textembedding-gecko |
Serviço | Limite | Métrica |
---|---|---|
Solicitações ImportRagFiles simultâneas |
3 RPM | VertexRagService concurrent import requests per region |
Número máximo de arquivos por solicitação ImportRagFiles |
10.000 | VertexRagService import rag files requests per region |
Para mais limites de taxa e cotas, consulte Limites de taxa da IA generativa na Vertex AI.
Serviço de avaliação de IA generativa
O serviço de avaliação de IA generativa usagemini-2.0-flash
como modelo de juiz padrão
para métricas baseadas em modelo.
Uma única solicitação de avaliação para uma métrica baseada em modelo pode resultar em várias solicitações subjacentes ao
serviço de avaliação de IA generativa. A cota de cada modelo é calculada por projeto, o que significa que todas as solicitações direcionadas a gemini-2.0-flash
para inferência de modelo e avaliação baseada em modelo contribuem para a cota.
As cotas do serviço de avaliação de IA generativa e do modelo de juiz subjacente são mostradas
na tabela a seguir:
Solicitação de cota | Cota padrão |
---|---|
Solicitações do serviço de avaliação de IA generativa por minuto | 1.000 solicitações por projeto em cada região |
Solicitações de previsão on-line por minuto parabase_model: gemini-2.0-flash |
Consulte Cotas por região e modelo. |
Se você receber um erro relacionado a cotas ao usar o serviço de avaliação de IA generativa, talvez seja necessário enviar uma solicitação de aumento de cota. Consulte Conferir e gerenciar cotas para mais informações.
Limite | Valor |
---|---|
Tempo limite da solicitação do serviço de avaliação de IA generativa | 60 segundos |
Quando você usa o serviço de avaliação de IA generativa pela primeira vez em um novo projeto, pode ocorrer um atraso na configuração inicial de até dois minutos. Se a primeira solicitação falhar, aguarde alguns minutos e tente novamente. As próximas solicitações de avaliação normalmente são concluídas em 60 segundos.
Os tokens máximos de entrada e saída para métricas baseadas em modelo dependem do modelo usado como modelo de avaliação. Consulte Modelos do Google para conferir uma lista de modelos.
Cotas do Vertex AI Pipelines
Cada job de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte Cotas e limites do Vertex AI Pipelines.
A seguir
- Para saber mais sobre a cota compartilhada dinâmica, consulte Cota compartilhada dinâmica.
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre Google Cloud cotas e limites, consulte Noções básicas sobre valores de cota e limites do sistema.