Esta página foi traduzida pela API Cloud Translation.

Modelos compatíveis

As tabelas a seguir mostram os modelos compatíveis com a capacidade de processamento provisionada, a capacidade de processamento para cada unidade de escala de IA generativa (GSU) e as taxas de burndown de cada modelo.

Modelos do Google

A capacidade de processamento provisionada só é compatível com modelos que você chama diretamente do seu projeto usando o ID específico do modelo, e não um alias. Para usar o Provisioned Throughput e fazer chamadas de API para um modelo, use o ID específico da versão do modelo (por exemplo, gemini-2.0-flash-001) e não um alias da versão do modelo.

Além disso, o Provisioned Throughput não oferece suporte a modelos chamados por outros produtos da Vertex AI, como os agentes e a Pesquisa da Vertex AI. Por exemplo, se você fizer chamadas de API para o Gemini 2.0 Flash ao usar a Vertex AI para Pesquisa, seu pedido de taxa de transferência provisionada para o Gemini 2.0 Flash não vai garantir as chamadas feitas pela Vertex AI para Pesquisa.

O Provisioned Throughput não é compatível com chamadas de previsão em lote.

A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. A capacidade de processamento por segundo é definida como a entrada de comando e a saída gerada em todas as solicitações por segundo.

Para saber quantos tokens sua carga de trabalho exige, consulte o tokenizador do SDK ou a API countTokens.

Modelo	Capacidade de processamento por segundo por GSU	Unidades	Incremento mínimo de compra de GSU	Taxas de burndown
Gemini 2.5 Flash com a API Live Versão mais recente compatível: `gemini-live-2.5-flash`	1620	Tokens	1	1 token de texto de entrada = 1 token de texto de entrada 1 token de áudio de entrada = 6 tokens de texto de entrada 1 token de vídeo de entrada = 6 tokens de texto de entrada 1 token de memória de sessão de entrada = 1 token de texto de entrada 1 token de texto de saída = 4 tokens de texto de entrada 1 token de áudio de saída = 24 tokens de texto de entrada
Prévia da imagem do Gemini 2.5 Flash Versão mais recente compatível: `gemini-2.5-flash-image-preview` (pré-lançamento)	2690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 9 tokens 1 token de imagem de saída = 100 tokens
Gemini 2.5 Flash-Lite Versão mais recente compatível (GA): `gemini-2.5-flash-lite` Versão mais recente compatível (pré-lançamento): `gemini-2.5-flash-lite-preview-09-2025`	8070	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 3 tokens 1 token de texto de resposta de saída = 4 tokens 1 token de texto de raciocínio de saída = 4 tokens
Gemini 2.5 Pro Versão mais recente compatível: `gemini-2.5-pro`	650	Tokens	1	Menor ou igual a 200.000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 8 tokens 1 token de texto de raciocínio de saída = 8 tokens Maior que 200.000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 12 tokens 1 token de texto de raciocínio de saída = 12 tokens
Gemini 2.5 Flash Versão mais recente compatível (GA): `gemini-2.5-flash` Versão mais recente compatível (pré-lançamento): `gemini-2.5-flash-preview-09-2025`	2690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 4 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens
Gemini 2.0 Flash Versão mais recente compatível: `gemini-2.0-flash-001`	3360	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 7 tokens 1 token de texto de saída = 4 tokens
Gemini 2.0 Flash-Lite Versão mais recente compatível: `gemini-2.0-flash-lite-001`	6720	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de saída = 4 tokens
Veo 3 Versão mais recente compatível: `veo-3.0-generate-001`	0,0040	Segundos de vídeo	34	1 segundo de vídeo de saída = 1 segundo de vídeo de saída
	0,0040	Segundos de vídeo + áudio	67	1 segundo de vídeo e áudio de saída = 2 segundos de vídeo de saída
Veo 3 Fast Versão mais recente compatível: `veo-3.0-fast-generate-001`	0,0080	Segundos de vídeo	17	1 segundo de vídeo de saída = 1 segundo de vídeo de saída
	0,0080	Segundos de vídeo + áudio	25	1 segundo de vídeo+áudio de saída = 1,45 segundo de vídeo de saída
Geração do Imagen 4 Ultra `imagen-4.0-ultra-generate-001`	0,015	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Geração do Imagen 4 `imagen-4.0-generate-001`	0,02	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Geração rápida do Imagen 4 `imagen-4.0-fast-generate-001`	0,04	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagen 3 Generate 002 `imagen-3.0-generate-002`	0,02	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagen 3 Generate 001 `imagen-3.0-generate-001`	0,025	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagen 3 Fast	0,05	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
MedLM medium Atenção:o MedLM foi descontinuado. O acesso ao MedLM não estará mais disponível a partir de 29 de setembro de 2025.	2.000	Caracteres	1	1 caractere de entrada = 1 caractere 1 caractere de saída = 2 caracteres
MedLM grande Atenção:o MedLM foi descontinuado. O acesso ao MedLM não estará mais disponível a partir de 29 de setembro de 2025.	200	Caracteres	1	1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres
MedLM grande 1.5 Atenção:o MedLM foi descontinuado. O acesso ao MedLM não estará mais disponível a partir de 29 de setembro de 2025.	200	Caracteres	1	1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres

Para informações sobre as capacidades de um modelo e limites de entrada ou saída, consulte a documentação do modelo.

Solicitar acesso:o modelo gemini-live-2.5-flash está em GA particular. Para informações sobre o acesso a essa versão, consulte a página de solicitação de acesso.

Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.

Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.

Suporte ao modelo de endpoint global

A capacidade de processamento provisionada é compatível com o endpoint global para os seguintes modelos:

Modelo	Versão mais recente do modelo compatível
Prévia da imagem do Gemini 2.5 Flash (pré-lançamento)	`gemini-2.5-flash-image-preview`
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite-preview-09-2025` (pré-lançamento) `gemini-2.5-flash-lite` (GA)
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.5 Flash	`gemini-2.5-flash-preview-09-2025` (pré-lançamento) `gemini-2.5-flash` (GA)
Gemini 2.0 Flash	`gemini-2.0-flash-001`
Gemini 2.0 Flash-Lite	`gemini-2.0-flash-lite-001`

O tráfego que excede a cota de capacidade de processamento provisionada usa o endpoint global por padrão.

Para atribuir capacidade de processamento provisionada ao endpoint global de um modelo, selecione global como a região ao fazer um pedido de capacidade de processamento provisionada.

Suporte para modelos ajustados de forma supervisionada

O seguinte é compatível com modelos do Google que oferecem suporte ao ajuste de detalhes supervisionado:

A capacidade de processamento provisionada pode ser aplicada a modelos de base e versões ajustadas com supervisão deles.
Os endpoints de modelo ajustado supervisionado e a contagem do modelo de base correspondente são contabilizados na mesma cota de capacidade de processamento provisionada.

Por exemplo, o Provisioned Throughput comprado para gemini-2.0-flash-lite-001 em um projeto específico prioriza solicitações feitas de versões supervisionadas e refinadas de gemini-2.0-flash-lite-001 criadas nesse projeto. Use o cabeçalho apropriado para controlar o comportamento do tráfego.

Modelos de parceiros

A tabela a seguir mostra as taxas de capacidade de processamento, incremento de compra e burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos do Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.

Modelo	Capacidade de processamento por GSU (tokens/s)	Compra mínima de GSU	Incremento de compra de GSU	Taxas de burndown
Claude Opus 4.1 da Anthropic	70	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token
Claude Opus 4 da Anthropic	70	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token
Claude Sonnet 4.5 da Anthropic	350	25	1	Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de acerto de cache = 0,1 token Maior ou igual a 200.000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação em cache = 2,5 tokens 1 token de ocorrência em cache = 0,2 token
Claude Sonnet 4 da Anthropic	350	25	1	Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de acerto de cache = 0,1 token Maior ou igual a 200.000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação em cache = 2,5 tokens 1 token de ocorrência em cache = 0,2 token
Claude 3.7 Sonnet da Anthropic	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token
Claude 3.5 Sonnet v2 da Anthropic (descontinuado)	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token
Claude 3.5 Haiku da Anthropic	2.000	10	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token
Claude 3 Opus da Anthropic	70	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token
Haiku do Claude 3 da Anthropic	4.200	5	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token
Claude 3.5 Sonnet da Anthropic (descontinuado)	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token

Para informações sobre os locais compatíveis, consulte Disponibilidade regional do Anthropic Claude. Para pedir Provisioned Throughput para modelos da Anthropic, entre em contato com seu representante da conta.Google Cloud

A seguir

Calcule os requisitos de capacidade de processamento provisionada.

Modelos compatíveis Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos do Google

Suporte ao modelo de endpoint global

Suporte para modelos ajustados de forma supervisionada

Modelos de parceiros

A seguir

Modelos compatíveis