Modelos do Google
A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. Seu throughput por segundo é definido como a entrada de comando e a saída gerada em todas as solicitações por segundo.
O throughput provisionado só oferece suporte a modelos que você chama diretamente do seu projeto usando a API do modelo e não oferece suporte a modelos chamados por outros produtos da Vertex AI, incluindo os agentes da Vertex AI e a Pesquisa da Vertex AI.
Para descobrir quantos tokens sua carga de trabalho exige, consulte o tokenizador do SDK ou a API countTokens.
Modelo | Capacidade de processamento por segundo por GSU | Unidades | Incremento mínimo de compra de GSU | Taxas de burndown |
---|---|---|---|---|
Gemini 2.0 Flash-Lite | 6.720 | Tokens | 1 | 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de saída = 4 tokens |
Gemini 2.0 Flash | 3.360 | Tokens | 1 | 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 7 tokens 1 token de texto de saída = 4 tokens |
Imagen 3 | 0,025 | Imagens | 1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
Imagen 3 Fast | 0,05 | Imagens | 1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
Imagem 2 | 0,05 | Imagens | 1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
Editar Imagen 2 | 0,05 | Imagens | 1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
MedLM medium | 2.000 | Caracteres | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 2 caracteres |
MedLM grande | 200 | Caracteres | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres |
MedLM large 1.5 | 200 | Caracteres | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres |
Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.
Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.
Suporte a modelos ajustados supervisionados
O seguinte é compatível com modelos do Google que oferecem suporte a ajustes de detalhes supervisionados:
A capacidade de processamento provisionada pode ser aplicada a modelos base e versões ajustadas supervisionadas desses modelos base.
Os endpoints de modelos ajustados supervisionados e o modelo de base correspondente são contabilizados na mesma cota de throughput provisionado.
Por exemplo, o throughput provisionado comprado para
gemini-2.0-flash-lite-001
em um projeto específico prioriza as solicitações feitas de versões supervisionadas e ajustadas degemini-2.0-flash-lite-001
criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.
Modelos legados do Google
Consulte Modelos legados com suporte à capacidade de processamento provisionada.
Modelos de parceiros
A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos de Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.
Modelo | Capacidade de processamento por GSU (tokens/s) | Compra mínima de GSU | Incremento de compra de GSU | Taxas de burndown |
---|---|---|---|---|
Soneto Claude 3.7 da Anthropic | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Soneto Claude 3.5 v2 da Anthropic | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Haiku Claude 3.5 da Anthropic | 2.000 | 10 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Claude 3 Opus da Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Haiku Claude 3 da Anthropic | 4.200 | 5 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Soneto Claude 3.5 da Anthropic | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Para informações sobre os locais com suporte, consulte Disponibilidade de região do Anthropic Claude. Para solicitar a taxa de transferência provisionada para modelos Anthropic, entre em contato com o Google Cloud representante da conta.