Custo de criação e implantação de modelos de IA na Vertex AI

Os preços são indicados em dólares americanos (US$). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.

Nesta página, você encontra informações sobre os preços da IA generativa na Vertex AI. Para todos os outros preços da Vertex AI, incluindo os serviços ML Platform e MLOps, consulte a página de preços da Vertex AI.

Modelos do Google

Gemini 2.5

Modelo Tipo Preço (/1 milhão de tokens) <= 200 mil tokens de entrada Preço (/1M tokens) > 200 mil tokens de entrada
Gemini 2.5 Pro
Entrada (texto, imagem, vídeo, áudio) US$ 1,25 US$ 2,50
Saída de texto (resposta e raciocínio) US$ 10 US$ 15
Gemini 2.5 Flash
Entrada (texto, imagem, vídeo) US$ 0,15 US$ 0,15
Entrada de áudio US$ 1 US$ 1
Saída de texto (sem pensar) US$ 0,60 US$ 0,60
Saída de texto (pensamento, resposta e raciocínio) US$ 3,50 US$ 3,50
* Se o contexto de entrada de uma consulta tiver mais de 200 mil tokens, todos os tokens (de entrada e saída) serão cobrados com as taxas de contexto longo.

Gemini 2.0

O Gemini 2.0 é cobrado com base em tokens. Para calcular o número de tokens de entrada na sua solicitação antes de enviá-la, use o tokenizer do SDK ou a API countTokens. Se sua solicitação falhar com um erro 400 ou 500, você não será cobrado pelos tokens usados.

Use a alternância na tabela de preços para comparar os preços baseados em tokens e em modalidades.

Preços baseados em token

Modelo Tipo Preço Preço com a API Batch




Gemini 2.0 Flash
1 milhão de tokens de entrada US$ 0,15 US$ 0,075
1 milhão de tokens de áudio de entrada US$ 1,00 US$ 0,50
1 milhão de tokens de texto de saída US$ 0,60 US$ 0,30
Ajuste para 1 milhão de tokens de treinamento US$ 3,00




API Gemini 2.0 Flash Live
1 milhão de tokens de texto de entrada US$ 0,5
1 milhão de tokens de áudio de entrada US$ 3
1 milhão de tokens de vídeo de entrada US$ 3
1 milhão de tokens de texto de saída US$ 2
1 milhão de tokens de áudio de saída US$ 12




Gemini 2.0 Flash Lite
1 milhão de tokens de entrada US$ 0,075 US$ 0,0375
1 milhão de tokens de áudio de entrada US$ 0,075 US$ 0,0375
1 milhão de tokens de texto de saída US$ 0,30 US$ 0,15
Ajuste para 1 milhão de tokens de treinamento US$ 1,00


Embasamento com a Pesquisa Google
O Gemini 2.0 Flash inclui até 1.500 solicitações fundamentadas por dia sem custo adicional. As solicitações com base no local
que excederem 1.500 por dia serão faturadas a US $35 por 1.000 solicitações (até 1 milhão de solicitações por dia).

Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia.
Embasamento com seus dados US$ 2,5 por 1.000 solicitações a partir de 16 de junho de 2025.

Web Grounding para empresas
US$ 45 por 1.000 solicitações (até 1 milhão de solicitações por dia) a partir de 5 de maio de 2025.

Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia.

Preços com base na modalidade

Os preços das modalidades abaixo são baseados em casos de uso médios, apenas para referência. O faturamento real será baseado apenas em tokens:

  • Quatro caracteres resultam em aproximadamente um token de texto, incluindo o espaço em branco.
  • Para uma imagem de 1024 x 1024, são consumidos 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.
  • A entrada de vídeo consome 258 tokens por segundo na taxa de amostragem de um frame por segundo. Vídeo com áudio gera cobranças para tokens de vídeo e áudio.
  • A entrada de áudio consome 25 tokens por segundo sem carimbo de data/hora.
Modelo Tipo Preço Preço com a API Batch




Gemini 2.0 Flash
Entrada de texto (US$/m caractere) US$ 0,0375 US$ 0,01875
Imagem de entrada ($/imagem) US$ 0,0001935 US$ 0,00009675
Vídeo de entrada ($/s) US$ 0,0000387 US$ 0,00001935
Áudio de entrada (US$/s) US$ 0,000025 US$ 0,0000125
Texto de saída (US$/mês por caractere) US$ 0,15 US$ 0,075




Gemini 2.0 Flash Lite
Entrada de texto (US$/m caractere) US$ 0,01875 US$ 0,009375
Imagem de entrada ($/imagem) US$ 0,00009675 US$ 0,000048375
Vídeo de entrada ($/s) US$ 0,00001935 US$ 0,000009675
Áudio de entrada (US$/s) US$ 0,000001875 US$ 0,000000938
Texto de saída (US$/mês por caractere) US$ 0,075 US$ 0,0375


Embasamento com a Pesquisa Google
O Gemini 2.0 Flash inclui até 1.500 solicitações fundamentadas por dia sem custo adicional. As solicitações com base no local
que excederem 1.500 por dia serão faturadas a US $35 por 1.000 solicitações (até 1 milhão de solicitações por dia).

Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia.

Web Grounding para empresas
US$ 45 por 1.000 solicitações (até 1 milhão de solicitações por dia) a partir de 5 de maio de 2025.

Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia.

* Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo base.
* A fundamentação com a Pesquisa Google é cobrada apenas para solicitações que retornam resultados contendo pelo menos um URL de suporte de fundamentação da Web. As taxas padrão de uso do modelo do Gemini também se aplicam.
* API Gemini 2.0 Flash Live: 25 tokens por segundo de áudio (entrada/saída), 258 tokens por segundo de vídeo (entrada). O embasamento com a Pesquisa Google continua sem custo financeiro enquanto a API Gemini 2.0 Flash Live estiver em pré-lançamento.

Preços do Vertex AI Model Optimizer (experimental)*

O Model Optimizer da Vertex AI simplifica o uso do Gemini para clientes corporativos, fornecendo um meta-endpoint único para solicitações de modelos do Gemini. Os clientes que usam esse serviço não precisam especificar se vão usar o Flash, o Pro ou uma versão específica. Em vez disso, eles apenas fornecem uma configuração configurável (custo, qualidade ou equilíbrio) para indicar as preferências, e o Model Optimizer aplica o nível certo de inteligência para a tarefa, enviando cada consulta para o modelo mais adequado.

O Model Optimizer da Vertex AI aplica preços dinâmicos. Isso significa que o preço médio por token depende do nível de inteligência do modelo aplicado para concluir a tarefa. Por isso, fornecemos exemplos de preços abaixo para ilustrar os cenários prováveis com base na configuração (confira as tabelas abaixo). As SKUs do Model Optimizer são SKUs de US $1 que funcionam como uma unidade de compra para aplicar ao seu faturamento. Você ainda será cobrado com base no consumo depois de usar os modelos.

Proporção de E/S 5:1 Exemplo 1
chatbot
OBSERVAÇÃO: esses intervalos não são garantias, os resultados de cada cliente podem variar
Preferência do cliente Os tokens de entrada do cliente são enviados ao MO Os tokens de saída do cliente são enviados ao MO Preço médio de entrada por milhão de tokens (faixa alta) Preço médio de saída por milhão de tokens (intervalo alto) Preço médio de entrada por milhão de tokens (intervalo baixo) Preço médio de saída por milhão de tokens (intervalo baixo)
Custo 10.000.000 2.000.000 US$ 0,63 US$ 2,50 US$ 0,16 US$ 0,63
Equilibrada 10.000.000 2.000.000 US$ 1,26 US$ 5,00 US$ 0,63 US$ 2,50
Qualidade 10.000.000 2.000.000 US$ 1,89 US$ 7,50 US$ 1,26 US$ 5,00
Proporção de E/S de 1:20 Exemplo 2: Geração de conteúdo
Preferência do cliente Os tokens de entrada do cliente são enviados ao MO Os tokens de saída do cliente são enviados ao MO Preço médio de entrada por milhão de tokens (faixa alta) Preço médio de saída por milhão de tokens (intervalo alto) Preço médio de entrada por milhão de tokens (intervalo baixo) Preço médio de saída por milhão de tokens (intervalo baixo)
Custo 1.000.000 20.000.000 US$ 0,63 US$ 2,50 US$ 0,16 US$ 0,63
Equilibrada 1.000.000 20.000.000 US$ 1,26 US$ 5,00 US$ 0,63 US$ 2,50
Qualidade 1.000.000 20.000.000 US$ 1,89 US$ 7,50 US$ 1,26 US$ 5,00

* O Model Optimizer é uma oferta experimental paga e pode encaminhar solicitações para versões experimentais do Gemini na Vertex.

Outros modelos do Gemini

Todos os modelos do Gemini, exceto o Gemini 2.0, são cobrados com base em modalidades como caracteres, imagens, segundos de vídeo/áudio. A entrada de texto é cobrada a cada 1.000 caracteres de entrada (prompt) e a cada 1.000 caracteres de saída (resposta). Os caracteres são contados pelos pontos de código UTF-8, e o espaço em branco é excluído da contagem, resultando em aproximadamente quatro caracteres por token. As solicitações Prediction que levam a respostas filtradas são cobradas apenas pela entrada. No final de cada ciclo de faturamento, as frações de um centavo (US$ 0,01) são arredondadas para um centavo. A entrada de mídia é cobrada por imagem ou por segundo (vídeo). Se sua solicitação falhar com um erro 400 ou 500, você não será cobrado pelos tokens usados.

Modelo Recurso Tipo Preço
( =< 128K tokens de entrada)
Preço
( > 128 mil tokens de entrada)
Gemini 1.5 Flash Multimodal Entrada de imagem
Entrada de vídeo
Entrada de texto
Entrada de áudio
US$ 0,00002 / imagem
US$0,00002 / segundo
US$0,00001875 / 1 mil caracteres
US$0,000002 / segundo
US$ 0,00004 / imagem
US$0,00004 / segundo
US$0,0000375 / 1 mil caracteres
US$0,000004 / segundo
Saída de texto US$ 0,000075 / 1 mil caracteres US$ 0,00015 / 1.000 caracteres
Ajuste* Token de treinamento US$ 8 / M tokens
Gemini 1.5 Pro Multimodal Entrada de imagem
Entrada de vídeo
Entrada de texto
Entrada de áudio
US$ 0,00032875 / imagem
US$0,00032875 / segundo
US$0,0003125 / 1 mil caracteres
US$0,00003125 / segundo
US$ 0,0006575 / imagem
US$0,0006575 / segundo
US$0,000625 / 1 mil caracteres
US$0,0000625 / segundo
Saída de texto US$ 0,00125 / 1.000 caracteres US$ 0,0025 / 1 mil caracteres
Ajuste* Token de treinamento US$ 80 / M tokens
Gemini 1.0 Pro Multimodal Entrada de imagem
Entrada de vídeo
Entrada de texto
US$ 0,0025 / imagem
US$ 0,002 / segundo
US$0,000125 / 1 mil caracteres
Saída de texto US$ 0,000375 / 1 mil characters
Embasamento com a Pesquisa Google Texto Solicitações de fundamentação US$ 35 / 1.000 solicitações (até 1 milhão de solicitações por dia).
Entre em contato com a equipe da sua conta se precisar de mais
de 1 milhão de solicitações por dia.
Web Grounding para empresas Texto US$ 45 por 1.000 solicitações (até 1 milhão de solicitações por dia) a partir de 5 de maio de 2025.

Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia.
Embasamento com seus dados Texto US$ 2,5 por 1.000 solicitações a partir de 16 de junho de 2025.

* Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
* Se o contexto da consulta for maior que 128 mil, todos os tokens serão cobrados com as taxas de contexto longo.
* Os modelos do Gemini estão disponíveis no modo em lote com 50% de desconto.
* O Gemini 1.0 Pro só oferece suporte a uma janela de contexto de até 32 KB.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo base.
* Grounding com a Pesquisa Google: se você estiver usando a recuperação dinâmica para otimizar os custos, apenas as solicitações que contiverem pelo menos um URL de suporte de fundamentação da Web na resposta serão cobradas pela Grounding com a Pesquisa Google. Os custos do Gemini sempre se aplicam.

Imagen

Com o Imagen na Vertex AI, é possível gerar imagens novas e editar com base nas solicitações de texto fornecidas, ou editar apenas partes de imagens usando uma área de máscara definida por você, além de vários outros recursos.

Modelo Recurso Descrição Entrada Saída Preço
Imagem 3 Geração de imagens Gerar uma imagem
Editar uma imagem
Personalizar uma imagem
Comando de texto Imagem US$ 0,04 por imagem
Imagen 3 Fast Geração de imagens Gerar uma imagem Comando de texto Imagem US$ 0,02 por imagem
Imagem 2, Imagem Geração de imagens Gerar uma imagem Comando de texto Imagem $0,020 por imagem
Edição de imagens Editar uma imagem usando a abordagem sem máscara ou com máscara Solicitação de imagem/texto Imagem $0,020 por imagem
Upscaling Aumenta a resolução de uma imagem gerada para 2K e 4K Imagem Imagem $0,003 por imagem
Ajuste de detalhes Ativa um "assunto" fornecido pelo usuário para ser usado nos comandos do Imagen (treinamento de poucas imagens) Assunto(s) com identificador de texto e de 4 a 8 imagens por assunto Modelo ajustado (após o treinamento com assuntos fornecidos pelo usuário) US$ por hora de uso do nó (preços do treinamento personalizado da Vertex AI)
Legendas visuais Gerar uma legenda de texto curta ou longa para uma imagem Imagem Legenda de texto $0,0015/imagem
Perguntas e respostas visuais Fornecer uma resposta com base em uma pergunta relacionada a uma imagem Solicitação de imagem/texto Resposta em texto $0,0015/imagem

Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.

Veo

O Veo 2 cria vídeos de alta qualidade sobre vários assuntos e estilos, melhorando o entendimento da física do mundo real e as nuances do movimento e da expressão humana.

Modelo Recurso Descrição Entrada Saída Preço
Veo 2 Geração de vídeo Gere vídeos com base em um comando de texto ou uma imagem de referência Comando de texto/imagem Vídeo US$ 0,50 por segundo

Entenda os custos de embedding para seus aplicativos de IA

Modelo Recurso Descrição Entrada Saída Preço
multimodalembedding Embeddings para multimodal: texto Gerar embeddings usando texto como entrada Texto Embeddings US$ 0,0002/1.000 caracteres de entrada
Embeddings para multimodal: imagem Gerar embeddings usando imagem como entrada Imagem Embeddings $0,0001/entrada de imagem
Embeddings para multimodal: vídeo Plus Vídeo Plus Vídeo Embeddings (até 15 embeddings por minuto de vídeo) US$ 0,0020 por segundo de vídeo
Embeddings para multimodal: padrão de vídeo Vídeo Standard Vídeo Embeddings (até 8 embeddings por minuto de vídeo) US$ 0,0010 por segundo de vídeo
Embeddings para multimodal: vídeo essencial Vídeo Essential Vídeo Embeddings (até 4 embeddings por minuto de vídeo) US$ 0,0005 por segundo de vídeo
Modelo Tipo Região Preço por 1.000 caracteres
Embeddings para texto Entrada Global
  • Solicitações on-line: US$ 0,000025
  • Solicitações em lote: US$ 0,00002
Saída Global
  • Solicitações on-line: sem custo financeiro
  • Solicitações em lote: sem cobrança

Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.

Preços do preenchimento de código da Vertex AI

A IA generativa na Vertex AI cobra por 1.000 caracteres de entrada (prompt) e por 1.000 caracteres de saída (resposta). Os caracteres são contados pelos pontos de código UTF-8, e o espaço em branco é excluído da contagem. Durante o estágio de visualização, as cobranças são 100% descontadas. As solicitações Prediction que levam a respostas filtradas são cobradas apenas pela entrada. No final de cada ciclo de faturamento, as frações de um centavo (US$ 0,01) são arredondadas para um centavo.

Modelo Tipo Região Preço por 1.000 caracteres
Codey para preenchimento de código Entrada Global
  • Solicitações on-line: US$ 0,00025
Saída Global
  • Solicitações on-line: US$ 0,0005

Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.

Tradução (texto)

Use a API Vertex AI e o LLM de tradução para traduzir textos. As traduções de LLM tendem a ser mais fluentes e com um tom mais humano do que os modelos de tradução clássicos, mas têm suporte a idiomas mais limitado (Saiba mais).

Modelo Método Uso Preço por milhão de caracteres
LLM Tradução de texto* O número de caracteres de entrada por mês

US$ 10 por milhão de caracteres*

O número de caracteres de saída por mês

US$ 10 por milhão de caracteres*

Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
*O preço é calculado por caractere processado pelo modelo. Para mais informações sobre a contagem de caracteres, consulte Caracteres cobrados

Otimize custos com o armazenamento em cache de contexto da Vertex AI

Com o armazenamento em cache de contexto, é possível reduzir o custo do processamento de tokens de entrada do Gemini em 75% e a latência da geração de conteúdo armazenando em cache a parte de contexto do seu texto de entrada ou mídia nos modelos do Gemini. A quantidade de tempo que os dados ficam armazenados no cache, que pode ser controlada pelo usuário, determina as cobranças de "Armazenamento de cache de contexto". Ao criar um contexto em cache, os usuários serão cobrados pelo custo padrão do token de entrada. As ocorrências de cache nos dados de entrada são cobradas a uma taxa reduzida, "Entrada em cache", em vez do custo normal de entrada. O tamanho dos dados para armazenamento e entrada é calculado da mesma forma que os preços de entrada do Gemini.

Modelos do Gemini 2.5

Modelo Recurso Tipo Preço (/1M tokens)
<= 200 mil tokens de entrada
Preço (/1M tokens)
> 200 mil tokens de entrada
Gemini 2.5 Pro Entrada em cache Entrada (texto, imagem, vídeo, áudio) US$ 0,31 (/1 milhão de tokens) US$ 0,625 (/1 milhão de tokens)
Saída N/A N/A
Armazenamento de cache de contexto Entrada (texto, imagem, vídeo, áudio) US$ 4,50 (/M Tok/h) US$ 4,50 (/M Tok/h)
Gemini 2.5 Flash Entrada em cache Entrada (texto, imagem, vídeo, áudio) US$ 0,0375 (/1 milhão de tokens) US$ 0,0375 (/1 milhão de tokens)
Saída N/A N/A
Armazenamento de cache de contexto Entrada (texto, imagem, vídeo, áudio) US$ 1 (/M Tok/h) US$ 1 (/M Tok/h)

Modelos do Gemini 2.0

Preços baseados em token


Modelo

Tipo
Armazenamento
(M tok-hora)
Preço




Gemini 2.0 Flash
1 milhão de tokens de entrada US$ 1,00 US$ 0,0375
1 milhão de tokens de áudio de entrada US$ 1,00 US$ 0,25
1 milhão de tokens de texto de saída NA NA


Gemini 2.0 Flash Lite
1 milhão de tokens de entrada US$ 1,00 US$ 0,01875
1 milhão de tokens de áudio de entrada US$ 1,00 US$ 0,01875
1 milhão de tokens de texto de saída NA NA

Preços com base na modalidade

Os preços das modalidades abaixo são baseados em casos de uso médios, apenas para referência. O faturamento real será baseado apenas em tokens:

  • Quatro caracteres resultam em aproximadamente um token de texto, incluindo o espaço em branco.
  • Para uma imagem de 1024 x 1024, são consumidos 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.
  • A entrada de vídeo consome 258 tokens por segundo na taxa de amostragem de um frame por segundo. Vídeo com áudio gera cobranças para tokens de vídeo e áudio.
  • A entrada de áudio consome 25 tokens por segundo sem carimbo de data/hora.

Modelo

Tipo
Armazenamento
(modalidade-hora)

Preço




Gemini 2.0 Flash
Entrada de texto (US$/m caractere) US$ 0,25 US$ 0,009375
Imagem de entrada ($/imagem) US$ 0,00129 US$ 0,000048375
Vídeo de entrada ($/s) US$ 0,000258 US$ 0,000009675
Áudio de entrada (US$/s) US$ 0,000025 US$ 0,00000625
Texto de saída (US$/mês por caractere) NA NA




Gemini 2.0 Flash Lite
Entrada de texto (US$/m caractere) US$ 0,25 US$ 0,0046875
Imagem de entrada ($/imagem) US$ 0,00129 US$ 0,0000241875
Vídeo de entrada ($/s) US$ 0,000258 US$ 0,000009675
Áudio de entrada (US$/s) US$ 0,000258 US$ 0,0000048375
Texto de saída (US$/mês por caractere) NA NA


Embasamento com a Pesquisa Google
O Gemini 2.0 Flash inclui até 1.500 solicitações fundamentadas por dia sem custo adicional. As solicitações com base no local
que excederem 1.500 por dia serão faturadas a US $35 por 1.000 solicitações (até 1 milhão de solicitações por dia).

Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia.

Web Grounding para empresas
US$ 45 por 1.000 solicitações (até 1 milhão de solicitações por dia) a partir de 5 de maio de 2025.

Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia.

* Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo base.
* A fundamentação com a Pesquisa Google é cobrada apenas para solicitações que retornam resultados contendo pelo menos um URL de suporte de fundamentação da Web. As taxas padrão de uso do modelo do Gemini também se aplicam.

Capacidade de processamento provisionada

A capacidade de processamento provisionada garante a capacidade de processamento para suas necessidades de IA generativa e é realizada por meio de unidades de escalonamento de IA generativa, ou GSUs. Saiba mais sobre a capacidade de processamento de cada GSU aqui e use nosso estimador on-line aqui.

Duração Preço por GSU Por
Compromisso de 1 semana* US$ 1.200 Semana
Compromisso de 1 mês US$ 2.700 Mês
Compromisso de 3 meses US$ 2.400 Mês
Compromisso de 1 ano US$ 2.000 Mês

*Observação: o compromisso de uma semana é uma oferta paga de visualização particular

Exemplo de cálculo de custo

Um usuário precisa garantir que pode oferecer suporte a 10 consultas por segundo (QPS) de uma consulta com entrada de 1.000 tokens de texto e 500 tokens de áudio e receber uma saída de 300 tokens de texto usando a API gemini-2.0-flash.

Usando a tabela de capacidade de processamento e taxa de burndown, sabemos que, para gemini-2.0-flash, a taxa de burndown de um token de texto de entrada é de 1 token, a taxa de burndown de um token de áudio de entrada é de 7 tokens e a taxa de burndown de um token de texto de saída é de 4 tokens.

O total de tokens de entrada do usuário é 1.000* (1 token por token de texto de entrada) + 500* (7 tokens por token de áudio de entrada) = 4.500 tokens de entrada ajustados por burndown. O total de tokens de saída do usuário é 300* (4 tokens por token de texto de saída) = 1.200 tokens de saída ajustados por burndown. Ao somarmos, temos 4.500 tokens de entrada ajustados pelo burndown + 1.200 tokens de saída ajustados pelo burndown = 5.700 tokens no total por consulta.

Ao multiplicar o total de tokens por consulta pelo QPS, temos 5.700 tokens no total por consulta * 10 QPS = 57.000 tokens no total por segundo.

Dividindo isso pela capacidade de processamento total por segundo por GSU,temos 57.000 tokens no total por segundo ÷ 3.360 capacidade de processamento por segundo por GSU = 16,96 GSUs. O incremento mínimo de compra de GSU para esse modelo é 1, então o usuário precisa de 17 GSUs.

Se o usuário quisesse manter essa capacidade por uma semana, o custo seria de US $1.200 * 17 GSUs = US $20.400 por semana. Se eles quisessem manter essa capacidade por um mês, o custo seria de US $2.700 * 17 GSUs = US $45.900 por mês. Se quisessem manter essa capacidade por três meses, o custo seria de US $2.400 * 17 GSUs = US $40.800 por mês. Por fim, se quisessem manter essa capacidade por um ano, o custo seria de US $2.000 * 17 GSUs = US $34.000 por mês.

Compare os preços dos modelos de parceiros na Vertex AI

Os modelos de parceiros são uma lista selecionada de modelos de IA generativa desenvolvidos por parceiros do Google. Os modelos de parceiros são oferecidos como APIs gerenciadas. Para mais informações, consulte Visão geral dos modelos de parceiros. As seções a seguir listam os detalhes de preços dos modelos de parceiros do Google.

Modelos da AI21 Labs

Modelo Preços
Jamba 1.5 Large Entrada: US$ 2 / milhão de tokens
Saída: US$ 8 / milhão de tokens
Jamba 1.5 Mini Entrada: US$ 0,20 / milhão de tokens
Saída: US$ 0,40 / milhão de tokens

Modelos Claude da Anthropic

Modelo Preços
Claude 3.7 Sonnet Entrada: US$ 3 / milhão de tokens
Saída: US$ 15 / milhão de tokens

Entrada em lote: US$ 1,50 / milhão de tokens
Saída em lote: US$ 7,50 / milhão de tokens

Gravação em cache: US$ 3,75 / milhão de tokens
Cache encontrado: US$ 0,30 / milhão de tokens

Gravação em cache em lote: US$ 1,875 / milhão de tokens
Cache encontrado em lote: US$ 0,15 / milhão de tokens
Claude 3.5 Haiku Entrada: US$ 0,80 / milhão de tokens
Saída: US$ 4 / milhão de tokens

Entrada em lote: US$ 0,40 / milhão de tokens
Saída em lote: US$ 2 / milhão de tokens

Gravação em cache: US$ 1 / milhão de tokens
Cache atingido: US$ 0,08 / milhão de tokens

Gravação em cache em lote: US$ 0,50 / milhão de tokens
Cache atingido em lote: US$ 0,04 / milhão de tokens
Claude 3.5 Sonnet v2 Entrada: US$ 3 / milhão de tokens
Saída: US$ 15 / milhão de tokens

Entrada em lote: US$ 1,50 / milhão de tokens
Saída em lote: US$ 7,50 / milhão de tokens

Gravação em cache: US$ 3,75 / milhão de tokens
Cache encontrado: US$ 0,30 / milhão de tokens

Gravação em cache em lote: US$ 1,875 / milhão de tokens
Cache encontrado em lote: US$ 0,15 / milhão de tokens
Claude 3.5 Sonnet Entrada: US$ 3 / milhão de tokens
Saída: US$ 15 / milhão de tokens

Gravação no cache: US$ 3,75 / milhão de tokens
Cache hit: US$ 0,30 / milhão de tokens
Claude 3 Haiku Entrada: US$ 0,25 / milhão de tokens
Saída: US$ 1,25 / milhão de tokens

Gravação no cache: US$ 0,30 / milhão de tokens
Cache hit: US$ 0,03 / milhão de tokens
Claude 3 Sonnet (deprecated) Entrada: US$ 3 / milhão de tokens
Saída: US$ 15 / milhão de tokens
Claude 3 Opus Entrada: US$ 15 / milhão de tokens
Saída: US$ 75 / milhão de tokens

Gravação em cache: US$ 18,75 / milhão de tokens
Cache acessado: US$ 1,50 / milhão de tokens

Modelos Llama da Meta

Modelo Preços
Llama 3.1 405B Entrada: US$ 5,00 / milhão de tokens
Saída: US$ 16,00 / milhão de tokens
Llama 3.3 70B * Entrada: US$ 0,72 / milhão de tokens
Saída: US$ 0,72 / milhão de tokens
Llama 4 Scout * Entrada: US$ 0,25 / milhão de tokens
Saída: US$ 0,70 / milhão de tokens
Mack de 4 Llamas * Entrada: US$ 0,35 / milhão de tokens
Saída: US$ 1,15 / milhão de tokens
  • Disponível sem custos financeiros até 1º de maio de 2025.

Modelos da Mistral AI

Modelo Preços
Mistral Small 3.1 (25.03) Entrada: US$ 0,10 / milhão de tokens
Saída: US$ 0,30 / milhão de tokens
Mistral Large (24.11) Entrada: US$ 2,00 / milhão de tokens
Saída: US$ 6,00 / milhão de tokens
Mistral Nemo Entrada: US$ 0,15 / milhão de tokens
Saída: US$ 0,15 / milhão de tokens
Codestral (25.01) Entrada: US$ 0,30 / milhão de tokens
Saída: US$ 0,90 / milhão de tokens

Solicite uma cotação personalizada

Com o sistema de pagamento por uso do Google Cloud, você paga apenas pelos serviços que usa. Entre em contato com nossa equipe de vendas e receba uma cotação personalizada para sua organização.
Entre em contato