Modelos do Google
A capacidade de processamento provisionada só é compatível com modelos que você chama diretamente
do seu projeto usando o ID específico do modelo, e não um alias. Para usar o
Provisioned Throughput e fazer chamadas de API para um modelo, use o
ID específico da versão do modelo (por exemplo, gemini-2.0-flash-001
) e não um
alias de versão do modelo.
Além disso, a taxa de transferência provisionada não oferece suporte a modelos chamados por outros produtos da Vertex AI, como os agentes e a Pesquisa da Vertex AI. Por exemplo, se você fizer chamadas de API para o Gemini 2.0 Flash ao usar a Vertex AI para Pesquisa, seu pedido de taxa de transferência provisionada para o Gemini 2.0 Flash não vai garantir as chamadas feitas pela Vertex AI para Pesquisa.
A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. A capacidade de processamento por segundo é definida como a entrada de comando e a saída gerada em todas as solicitações por segundo.
Para saber quantos tokens sua carga de trabalho exige, consulte o tokenizador do SDK ou a API countTokens.
Modelo | Capacidade de processamento por segundo por GSU | Unidades | Incremento mínimo de compra de GSU | Taxas de burndown |
---|---|---|---|---|
Gemini 2.5 Flash-Lite Versão mais recente com suporte: |
8070 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 5 tokens 1 token de texto de resposta de saída = 4 tokens |
Gemini 2.5 Pro Versão mais recente compatível: |
650 | Tokens | 1 |
Menos de ou igual a 200.000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 8 tokens 1 token de texto de raciocínio de saída = 8 tokens Mais de 200.000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 12 tokens 1 token de texto de raciocínio de saída = 12 tokens |
Gemini 2.5 Flash Versão mais recente compatível: |
2690 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 4 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens |
Gemini 2.0 Flash Versão mais recente compatível: |
3360 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 7 tokens 1 token de texto de saída = 4 tokens |
Gemini 2.0 Flash-Lite Versão mais recente compatível: |
6720 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de saída = 4 tokens |
Imagen 3 | 0,025 | Imagens | 1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
Imagen 3 Fast | 0,05 | Imagens | 1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
Imagen 2 | 0,05 | Imagens | 1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
Edição do Imagen 2 | 0,05 | Imagens | 1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
MedLM medium | 2.000 | Caracteres | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 2 caracteres |
MedLM grande | 200 | Caracteres | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres |
MedLM grande 1.5 | 200 | Caracteres | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres |
Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.
Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.
Suporte a modelos de endpoints globais
A capacidade de processamento provisionada é compatível com o endpoint global para os seguintes modelos:
Modelo | Versão mais recente do modelo compatível |
---|---|
Gemini 2.5 Flash-Lite (pré-lançamento) | gemini-2.5-flash-lite-preview-06-17 |
Gemini 2.5 Pro | gemini-2.5-pro |
Gemini 2.5 Flash | gemini-2.5-flash |
Gemini 2.0 Flash | gemini-2.0-flash-001 |
Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
O tráfego que excede a cota de capacidade de processamento provisionada usa o endpoint global por padrão.
Para atribuir capacidade de processamento provisionada ao endpoint global de um modelo, selecione global
como a região ao fazer um pedido de capacidade de processamento provisionada.
Suporte para modelos ajustados de forma supervisionada
O seguinte é compatível com modelos do Google que oferecem suporte ao ajuste de detalhes supervisionado:
A capacidade de processamento provisionada pode ser aplicada a modelos de base e versões ajustadas com supervisão deles.
Os endpoints de modelo ajustado supervisionado e a contagem do modelo de base correspondente são contabilizados na mesma cota de capacidade de processamento provisionada.
Por exemplo, o Provisioned Throughput comprado para
gemini-2.0-flash-lite-001
em um projeto específico prioriza solicitações feitas de versões supervisionadas e refinadas degemini-2.0-flash-lite-001
criadas nesse projeto. Use o cabeçalho apropriado para controlar o comportamento do tráfego.
Modelos de parceiros
A tabela a seguir mostra as taxas de capacidade de processamento, incremento de compra e burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos do Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.
Modelo | Capacidade de processamento por GSU (tokens/s) | Compra mínima de GSU | Incremento de compra de GSU | Taxas de burndown |
---|---|---|---|---|
Claude Opus 4 da Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token |
Claude Sonnet 4 da Anthropic | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token |
Claude 3.7 Sonnet da Anthropic | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token |
Claude 3.5 Sonnet v2 da Anthropic | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token |
Claude 3.5 Haiku da Anthropic | 2.000 | 10 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token |
Claude 3 Opus da Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token |
Haiku do Claude 3 da Anthropic | 4.200 | 5 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token |
Claude 3.5 Sonnet da Anthropic | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache = 1,25 token 1 token de ocorrência em cache = 0,1 token |
Para informações sobre os locais compatíveis, consulte Disponibilidade regional do Anthropic Claude. Para pedir Provisioned Throughput para modelos da Anthropic, entre em contato com seu representante de conta.Google Cloud