Custo de criação e implantação de modelos de IA na Vertex AI
Os preços são indicados em dólares americanos (US$). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
Nesta página, você encontra informações sobre os preços da IA generativa na Vertex AI. Para todos os outros preços da Vertex AI, incluindo os serviços ML Platform e MLOps, consulte a página de preços da Vertex AI.
Modelos do Google
Gemini 2.5
Modelo | Tipo | Preço (/1 milhão de tokens) <= 200 mil tokens de entrada | Preço (/1M tokens) > 200 mil tokens de entrada |
---|---|---|---|
Gemini 2.5 Pro | |||
Entrada (texto, imagem, vídeo, áudio) | US$ 1,25 | US$ 2,50 | |
Saída de texto (resposta e raciocínio) | US$ 10 | US$ 15 | |
Gemini 2.5 Flash | |||
Entrada (texto, imagem, vídeo) | US$ 0,15 | US$ 0,15 | |
Entrada de áudio | US$ 1 | US$ 1 | |
Saída de texto (sem pensar) | US$ 0,60 | US$ 0,60 | |
Saída de texto (pensamento, resposta e raciocínio) | US$ 3,50 | US$ 3,50 |
Gemini 2.0
O Gemini 2.0 é cobrado com base em tokens. Para calcular o número de tokens de entrada na sua solicitação antes de enviá-la, use o tokenizer do SDK ou a API countTokens. Se sua solicitação falhar com um erro 400 ou 500, você não será cobrado pelos tokens usados.
Use a alternância na tabela de preços para comparar os preços baseados em tokens e em modalidades.
Preços baseados em token
Modelo | Tipo | Preço | Preço com a API Batch |
---|---|---|---|
Gemini 2.0 Flash |
|||
1 milhão de tokens de entrada | US$ 0,15 | US$ 0,075 | |
1 milhão de tokens de áudio de entrada | US$ 1,00 | US$ 0,50 | |
1 milhão de tokens de texto de saída | US$ 0,60 | US$ 0,30 | |
Ajuste para 1 milhão de tokens de treinamento | US$ 3,00 | ||
API Gemini 2.0 Flash Live |
|||
1 milhão de tokens de texto de entrada | US$ 0,5 | ||
1 milhão de tokens de áudio de entrada | US$ 3 | ||
1 milhão de tokens de vídeo de entrada | US$ 3 | ||
1 milhão de tokens de texto de saída | US$ 2 | ||
1 milhão de tokens de áudio de saída | US$ 12 | ||
Gemini 2.0 Flash Lite |
|||
1 milhão de tokens de entrada | US$ 0,075 | US$ 0,0375 | |
1 milhão de tokens de áudio de entrada | US$ 0,075 | US$ 0,0375 | |
1 milhão de tokens de texto de saída | US$ 0,30 | US$ 0,15 | |
Ajuste para 1 milhão de tokens de treinamento | US$ 1,00 | ||
Embasamento com a Pesquisa Google |
O Gemini 2.0 Flash inclui até 1.500 solicitações fundamentadas por dia sem custo adicional. As solicitações com base no local que excederem 1.500 por dia serão faturadas a US $35 por 1.000 solicitações (até 1 milhão de solicitações por dia). Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia. |
||
Embasamento com seus dados | US$ 2,5 por 1.000 solicitações a partir de 16 de junho de 2025. | ||
Web Grounding para empresas |
US$ 45 por 1.000 solicitações (até 1 milhão de solicitações por dia) a partir de 5 de maio de 2025. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia. |
Preços com base na modalidade
Os preços das modalidades abaixo são baseados em casos de uso médios, apenas para referência. O faturamento real será baseado apenas em tokens:
- Quatro caracteres resultam em aproximadamente um token de texto, incluindo o espaço em branco.
- Para uma imagem de 1024 x 1024, são consumidos 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.
- A entrada de vídeo consome 258 tokens por segundo na taxa de amostragem de um frame por segundo. Vídeo com áudio gera cobranças para tokens de vídeo e áudio.
- A entrada de áudio consome 25 tokens por segundo sem carimbo de data/hora.
Modelo | Tipo | Preço | Preço com a API Batch |
---|---|---|---|
Gemini 2.0 Flash |
|||
Entrada de texto (US$/m caractere) | US$ 0,0375 | US$ 0,01875 | |
Imagem de entrada ($/imagem) | US$ 0,0001935 | US$ 0,00009675 | |
Vídeo de entrada ($/s) | US$ 0,0000387 | US$ 0,00001935 | |
Áudio de entrada (US$/s) | US$ 0,000025 | US$ 0,0000125 | |
Texto de saída (US$/mês por caractere) | US$ 0,15 | US$ 0,075 | |
Gemini 2.0 Flash Lite |
|||
Entrada de texto (US$/m caractere) | US$ 0,01875 | US$ 0,009375 | |
Imagem de entrada ($/imagem) | US$ 0,00009675 | US$ 0,000048375 | |
Vídeo de entrada ($/s) | US$ 0,00001935 | US$ 0,000009675 | |
Áudio de entrada (US$/s) | US$ 0,000001875 | US$ 0,000000938 | |
Texto de saída (US$/mês por caractere) | US$ 0,075 | US$ 0,0375 | |
Embasamento com a Pesquisa Google |
O Gemini 2.0 Flash inclui até 1.500 solicitações fundamentadas por dia sem custo adicional. As solicitações com base no local que excederem 1.500 por dia serão faturadas a US $35 por 1.000 solicitações (até 1 milhão de solicitações por dia). Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia. |
||
Web Grounding para empresas |
US$ 45 por 1.000 solicitações (até 1 milhão de solicitações por dia) a partir de 5 de maio de 2025. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia. |
* Os preços são indicados em dólares americanos (USD).
Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo base.
* A fundamentação com a Pesquisa Google é cobrada apenas para solicitações que retornam resultados contendo pelo menos um URL de suporte de fundamentação da Web. As taxas padrão de uso do modelo do Gemini também se aplicam.
* API Gemini 2.0 Flash Live: 25 tokens por segundo de áudio (entrada/saída), 258 tokens por segundo de vídeo (entrada). O embasamento com a Pesquisa Google continua sem custo financeiro enquanto a API Gemini 2.0 Flash Live estiver em pré-lançamento.
Preços do Vertex AI Model Optimizer (experimental)*
O Model Optimizer da Vertex AI simplifica o uso do Gemini para clientes corporativos, fornecendo um meta-endpoint único para solicitações de modelos do Gemini. Os clientes que usam esse serviço não precisam especificar se vão usar o Flash, o Pro ou uma versão específica. Em vez disso, eles apenas fornecem uma configuração configurável (custo, qualidade ou equilíbrio) para indicar as preferências, e o Model Optimizer aplica o nível certo de inteligência para a tarefa, enviando cada consulta para o modelo mais adequado.
O Model Optimizer da Vertex AI aplica preços dinâmicos. Isso significa que o preço médio por token depende do nível de inteligência do modelo aplicado para concluir a tarefa. Por isso, fornecemos exemplos de preços abaixo para ilustrar os cenários prováveis com base na configuração (confira as tabelas abaixo). As SKUs do Model Optimizer são SKUs de US $1 que funcionam como uma unidade de compra para aplicar ao seu faturamento. Você ainda será cobrado com base no consumo depois de usar os modelos.
Proporção de E/S 5:1 | Exemplo 1 chatbot |
OBSERVAÇÃO: esses intervalos não são garantias, os resultados de cada cliente podem variar | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Preferência do cliente | Os tokens de entrada do cliente são enviados ao MO | Os tokens de saída do cliente são enviados ao MO | Preço médio de entrada por milhão de tokens (faixa alta) | Preço médio de saída por milhão de tokens (intervalo alto) | Preço médio de entrada por milhão de tokens (intervalo baixo) | Preço médio de saída por milhão de tokens (intervalo baixo) | |||||
Custo | 10.000.000 | 2.000.000 | US$ 0,63 | US$ 2,50 | US$ 0,16 | US$ 0,63 | |||||
Equilibrada | 10.000.000 | 2.000.000 | US$ 1,26 | US$ 5,00 | US$ 0,63 | US$ 2,50 | |||||
Qualidade | 10.000.000 | 2.000.000 | US$ 1,89 | US$ 7,50 | US$ 1,26 | US$ 5,00 |
Proporção de E/S de 1:20 | Exemplo 2: Geração de conteúdo | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Preferência do cliente | Os tokens de entrada do cliente são enviados ao MO | Os tokens de saída do cliente são enviados ao MO | Preço médio de entrada por milhão de tokens (faixa alta) | Preço médio de saída por milhão de tokens (intervalo alto) | Preço médio de entrada por milhão de tokens (intervalo baixo) | Preço médio de saída por milhão de tokens (intervalo baixo) | |||||
Custo | 1.000.000 | 20.000.000 | US$ 0,63 | US$ 2,50 | US$ 0,16 | US$ 0,63 | |||||
Equilibrada | 1.000.000 | 20.000.000 | US$ 1,26 | US$ 5,00 | US$ 0,63 | US$ 2,50 | |||||
Qualidade | 1.000.000 | 20.000.000 | US$ 1,89 | US$ 7,50 | US$ 1,26 | US$ 5,00 |
Outros modelos do Gemini
Todos os modelos do Gemini, exceto o Gemini 2.0, são cobrados com base em modalidades como caracteres, imagens, segundos de vídeo/áudio. A entrada de texto é cobrada a cada 1.000 caracteres de entrada (prompt) e a cada 1.000 caracteres de saída (resposta). Os caracteres são contados pelos pontos de código UTF-8, e o espaço em branco é excluído da contagem, resultando em aproximadamente quatro caracteres por token. As solicitações Prediction que levam a respostas filtradas são cobradas apenas pela entrada. No final de cada ciclo de faturamento, as frações de um centavo (US$ 0,01) são arredondadas para um centavo. A entrada de mídia é cobrada por imagem ou por segundo (vídeo). Se sua solicitação falhar com um erro 400 ou 500, você não será cobrado pelos tokens usados.
Modelo | Recurso | Tipo | Preço ( =< 128K tokens de entrada) |
Preço ( > 128 mil tokens de entrada) |
||
---|---|---|---|---|---|---|
Gemini 1.5 Flash | Multimodal | Entrada de imagem Entrada de vídeo Entrada de texto Entrada de áudio |
US$ 0,00002 / imagem US$0,00002 / segundo US$0,00001875 / 1 mil caracteres US$0,000002 / segundo |
US$ 0,00004 / imagem US$0,00004 / segundo US$0,0000375 / 1 mil caracteres US$0,000004 / segundo |
||
Saída de texto | US$ 0,000075 / 1 mil caracteres | US$ 0,00015 / 1.000 caracteres | ||||
Ajuste* | Token de treinamento | US$ 8 / M tokens | ||||
Gemini 1.5 Pro | Multimodal | Entrada de imagem Entrada de vídeo Entrada de texto Entrada de áudio |
US$ 0,00032875 / imagem US$0,00032875 / segundo US$0,0003125 / 1 mil caracteres US$0,00003125 / segundo |
US$ 0,0006575 / imagem US$0,0006575 / segundo US$0,000625 / 1 mil caracteres US$0,0000625 / segundo |
||
Saída de texto | US$ 0,00125 / 1.000 caracteres | US$ 0,0025 / 1 mil caracteres | ||||
Ajuste* | Token de treinamento | US$ 80 / M tokens | ||||
Gemini 1.0 Pro | Multimodal | Entrada de imagem Entrada de vídeo Entrada de texto |
US$ 0,0025 / imagem US$ 0,002 / segundo US$0,000125 / 1 mil caracteres |
|||
Saída de texto | US$ 0,000375 / 1 mil characters | |||||
Embasamento com a Pesquisa Google | Texto | Solicitações de fundamentação | US$ 35 / 1.000 solicitações (até 1 milhão de solicitações por dia). Entre em contato com a equipe da sua conta se precisar de mais de 1 milhão de solicitações por dia. |
|||
Web Grounding para empresas | Texto | US$ 45 por 1.000 solicitações (até 1 milhão de solicitações por dia) a partir de 5 de maio de 2025. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia. |
||||
Embasamento com seus dados | Texto | US$ 2,5 por 1.000 solicitações a partir de 16 de junho de 2025. |
* Os preços são indicados em dólares americanos (USD).
Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
* Se o contexto da consulta for maior que 128 mil, todos os tokens serão cobrados com as taxas de contexto longo.
* Os modelos do Gemini estão disponíveis no modo em lote com 50% de desconto.
* O Gemini 1.0 Pro só oferece suporte a uma janela de contexto de até 32 KB.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo base.
* Grounding com a Pesquisa Google: se você estiver usando a recuperação dinâmica para otimizar os custos, apenas as solicitações que contiverem pelo menos um URL de suporte de fundamentação da Web na resposta serão cobradas pela Grounding com a Pesquisa Google. Os custos do Gemini sempre se aplicam.
Imagen
Com o Imagen na Vertex AI, é possível gerar imagens novas e editar com base nas solicitações de texto fornecidas, ou editar apenas partes de imagens usando uma área de máscara definida por você, além de vários outros recursos.
Modelo | Recurso | Descrição | Entrada | Saída | Preço |
---|---|---|---|---|---|
Imagem 3 | Geração de imagens | Gerar uma imagem Editar uma imagem Personalizar uma imagem |
Comando de texto | Imagem | US$ 0,04 por imagem |
Imagen 3 Fast | Geração de imagens | Gerar uma imagem | Comando de texto | Imagem | US$ 0,02 por imagem |
Imagem 2, Imagem | Geração de imagens | Gerar uma imagem | Comando de texto | Imagem | $0,020 por imagem |
Edição de imagens | Editar uma imagem usando a abordagem sem máscara ou com máscara | Solicitação de imagem/texto | Imagem | $0,020 por imagem | |
Upscaling | Aumenta a resolução de uma imagem gerada para 2K e 4K | Imagem | Imagem | $0,003 por imagem | |
Ajuste de detalhes | Ativa um "assunto" fornecido pelo usuário para ser usado nos comandos do Imagen (treinamento de poucas imagens) | Assunto(s) com identificador de texto e de 4 a 8 imagens por assunto | Modelo ajustado (após o treinamento com assuntos fornecidos pelo usuário) | US$ por hora de uso do nó (preços do treinamento personalizado da Vertex AI) | |
Legendas visuais | Gerar uma legenda de texto curta ou longa para uma imagem | Imagem | Legenda de texto | $0,0015/imagem | |
Perguntas e respostas visuais | Fornecer uma resposta com base em uma pergunta relacionada a uma imagem | Solicitação de imagem/texto | Resposta em texto | $0,0015/imagem |
Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
Veo
O Veo 2 cria vídeos de alta qualidade sobre vários assuntos e estilos, melhorando o entendimento da física do mundo real e as nuances do movimento e da expressão humana.
Modelo | Recurso | Descrição | Entrada | Saída | Preço |
---|---|---|---|---|---|
Veo 2 | Geração de vídeo | Gere vídeos com base em um comando de texto ou uma imagem de referência | Comando de texto/imagem | Vídeo | US$ 0,50 por segundo |
Entenda os custos de embedding para seus aplicativos de IA
Modelo | Recurso | Descrição | Entrada | Saída | Preço |
---|---|---|---|---|---|
multimodalembedding | Embeddings para multimodal: texto | Gerar embeddings usando texto como entrada | Texto | Embeddings | US$ 0,0002/1.000 caracteres de entrada |
Embeddings para multimodal: imagem | Gerar embeddings usando imagem como entrada | Imagem | Embeddings | $0,0001/entrada de imagem | |
Embeddings para multimodal: vídeo Plus | Vídeo Plus | Vídeo | Embeddings (até 15 embeddings por minuto de vídeo) | US$ 0,0020 por segundo de vídeo | |
Embeddings para multimodal: padrão de vídeo | Vídeo Standard | Vídeo | Embeddings (até 8 embeddings por minuto de vídeo) | US$ 0,0010 por segundo de vídeo | |
Embeddings para multimodal: vídeo essencial | Vídeo Essential | Vídeo | Embeddings (até 4 embeddings por minuto de vídeo) | US$ 0,0005 por segundo de vídeo |
Modelo | Tipo | Região | Preço por 1.000 caracteres |
---|---|---|---|
Embeddings para texto | Entrada | Global |
|
Saída | Global |
|
Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
Preços do preenchimento de código da Vertex AI
A IA generativa na Vertex AI cobra por 1.000 caracteres de entrada (prompt) e por 1.000 caracteres de saída (resposta). Os caracteres são contados pelos pontos de código UTF-8, e o espaço em branco é excluído da contagem. Durante o estágio de visualização, as cobranças são 100% descontadas. As solicitações Prediction que levam a respostas filtradas são cobradas apenas pela entrada. No final de cada ciclo de faturamento, as frações de um centavo (US$ 0,01) são arredondadas para um centavo.
Modelo | Tipo | Região | Preço por 1.000 caracteres |
---|---|---|---|
Codey para preenchimento de código | Entrada | Global |
|
Saída | Global |
|
Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
Tradução (texto)
Use a API Vertex AI e o LLM de tradução para traduzir textos. As traduções de LLM tendem a ser mais fluentes e com um tom mais humano do que os modelos de tradução clássicos, mas têm suporte a idiomas mais limitado (Saiba mais).
Modelo | Método | Uso | Preço por milhão de caracteres |
---|---|---|---|
LLM | Tradução de texto* | O número de caracteres de entrada por mês |
US$ 10 por milhão de caracteres* |
O número de caracteres de saída por mês |
US$ 10 por milhão de caracteres* |
Os preços são indicados em dólares americanos (USD).
Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
*O preço é calculado por caractere processado pelo modelo. Para mais informações sobre a contagem de caracteres, consulte Caracteres cobrados
Otimize custos com o armazenamento em cache de contexto da Vertex AI
Com o armazenamento em cache de contexto, é possível reduzir o custo do processamento de tokens de entrada do Gemini em 75% e a latência da geração de conteúdo armazenando em cache a parte de contexto do seu texto de entrada ou mídia nos modelos do Gemini. A quantidade de tempo que os dados ficam armazenados no cache, que pode ser controlada pelo usuário, determina as cobranças de "Armazenamento de cache de contexto". Ao criar um contexto em cache, os usuários serão cobrados pelo custo padrão do token de entrada. As ocorrências de cache nos dados de entrada são cobradas a uma taxa reduzida, "Entrada em cache", em vez do custo normal de entrada. O tamanho dos dados para armazenamento e entrada é calculado da mesma forma que os preços de entrada do Gemini.
Modelos do Gemini 2.5
Modelo | Recurso | Tipo | Preço (/1M tokens) <= 200 mil tokens de entrada |
Preço (/1M tokens) > 200 mil tokens de entrada |
---|---|---|---|---|
Gemini 2.5 Pro | Entrada em cache | Entrada (texto, imagem, vídeo, áudio) | US$ 0,31 (/1 milhão de tokens) | US$ 0,625 (/1 milhão de tokens) |
Saída | N/A | N/A | ||
Armazenamento de cache de contexto | Entrada (texto, imagem, vídeo, áudio) | US$ 4,50 (/M Tok/h) | US$ 4,50 (/M Tok/h) | |
Gemini 2.5 Flash | Entrada em cache | Entrada (texto, imagem, vídeo, áudio) | US$ 0,0375 (/1 milhão de tokens) | US$ 0,0375 (/1 milhão de tokens) |
Saída | N/A | N/A | ||
Armazenamento de cache de contexto | Entrada (texto, imagem, vídeo, áudio) | US$ 1 (/M Tok/h) | US$ 1 (/M Tok/h) |
Modelos do Gemini 2.0
Preços baseados em token
Modelo |
Tipo |
Armazenamento (M tok-hora) |
Preço |
---|---|---|---|
Gemini 2.0 Flash |
|||
1 milhão de tokens de entrada | US$ 1,00 | US$ 0,0375 | |
1 milhão de tokens de áudio de entrada | US$ 1,00 | US$ 0,25 | |
1 milhão de tokens de texto de saída | NA | NA | |
Gemini 2.0 Flash Lite |
|||
1 milhão de tokens de entrada | US$ 1,00 | US$ 0,01875 | |
1 milhão de tokens de áudio de entrada | US$ 1,00 | US$ 0,01875 | |
1 milhão de tokens de texto de saída | NA | NA |
Preços com base na modalidade
Os preços das modalidades abaixo são baseados em casos de uso médios, apenas para referência. O faturamento real será baseado apenas em tokens:
- Quatro caracteres resultam em aproximadamente um token de texto, incluindo o espaço em branco.
- Para uma imagem de 1024 x 1024, são consumidos 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.
- A entrada de vídeo consome 258 tokens por segundo na taxa de amostragem de um frame por segundo. Vídeo com áudio gera cobranças para tokens de vídeo e áudio.
- A entrada de áudio consome 25 tokens por segundo sem carimbo de data/hora.
Modelo |
Tipo |
Armazenamento (modalidade-hora) |
Preço |
---|---|---|---|
Gemini 2.0 Flash |
|||
Entrada de texto (US$/m caractere) | US$ 0,25 | US$ 0,009375 | |
Imagem de entrada ($/imagem) | US$ 0,00129 | US$ 0,000048375 | |
Vídeo de entrada ($/s) | US$ 0,000258 | US$ 0,000009675 | |
Áudio de entrada (US$/s) | US$ 0,000025 | US$ 0,00000625 | |
Texto de saída (US$/mês por caractere) | NA | NA | |
Gemini 2.0 Flash Lite |
|||
Entrada de texto (US$/m caractere) | US$ 0,25 | US$ 0,0046875 | |
Imagem de entrada ($/imagem) | US$ 0,00129 | US$ 0,0000241875 | |
Vídeo de entrada ($/s) | US$ 0,000258 | US$ 0,000009675 | |
Áudio de entrada (US$/s) | US$ 0,000258 | US$ 0,0000048375 | |
Texto de saída (US$/mês por caractere) | NA | NA | |
Embasamento com a Pesquisa Google |
O Gemini 2.0 Flash inclui até 1.500 solicitações fundamentadas por dia sem custo adicional. As solicitações com base no local que excederem 1.500 por dia serão faturadas a US $35 por 1.000 solicitações (até 1 milhão de solicitações por dia). Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia. |
||
Web Grounding para empresas |
US$ 45 por 1.000 solicitações (até 1 milhão de solicitações por dia) a partir de 5 de maio de 2025. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia. |
* Os preços são indicados em dólares americanos (USD).
Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo base.
* A fundamentação com a Pesquisa Google é cobrada apenas para solicitações que retornam resultados contendo pelo menos um URL de suporte de fundamentação da Web. As taxas padrão de uso do modelo do Gemini também se aplicam.
Capacidade de processamento provisionada
A capacidade de processamento provisionada garante a capacidade de processamento para suas necessidades de IA generativa e é realizada por meio de unidades de escalonamento de IA generativa, ou GSUs. Saiba mais sobre a capacidade de processamento de cada GSU aqui e use nosso estimador on-line aqui.
Duração | Preço por GSU | Por |
---|---|---|
Compromisso de 1 semana* | US$ 1.200 | Semana |
Compromisso de 1 mês | US$ 2.700 | Mês |
Compromisso de 3 meses | US$ 2.400 | Mês |
Compromisso de 1 ano | US$ 2.000 | Mês |
*Observação: o compromisso de uma semana é uma oferta paga de visualização particular
Exemplo de cálculo de custo
Um usuário precisa garantir que pode oferecer suporte a 10 consultas por segundo (QPS) de uma consulta com entrada de 1.000 tokens de texto e 500 tokens de áudio e receber uma saída de 300 tokens de texto usando a API gemini-2.0-flash.
Usando a tabela de capacidade de processamento e taxa de burndown, sabemos que, para gemini-2.0-flash, a taxa de burndown de um token de texto de entrada é de 1 token, a taxa de burndown de um token de áudio de entrada é de 7 tokens e a taxa de burndown de um token de texto de saída é de 4 tokens.
O total de tokens de entrada do usuário é 1.000* (1 token por token de texto de entrada) + 500* (7 tokens por token de áudio de entrada) = 4.500 tokens de entrada ajustados por burndown. O total de tokens de saída do usuário é 300* (4 tokens por token de texto de saída) = 1.200 tokens de saída ajustados por burndown. Ao somarmos, temos 4.500 tokens de entrada ajustados pelo burndown + 1.200 tokens de saída ajustados pelo burndown = 5.700 tokens no total por consulta.
Ao multiplicar o total de tokens por consulta pelo QPS, temos 5.700 tokens no total por consulta * 10 QPS = 57.000 tokens no total por segundo.
Dividindo isso pela capacidade de processamento total por segundo por GSU,temos 57.000 tokens no total por segundo ÷ 3.360 capacidade de processamento por segundo por GSU = 16,96 GSUs. O incremento mínimo de compra de GSU para esse modelo é 1, então o usuário precisa de 17 GSUs.
Se o usuário quisesse manter essa capacidade por uma semana, o custo seria de US $1.200 * 17 GSUs = US $20.400 por semana. Se eles quisessem manter essa capacidade por um mês, o custo seria de US $2.700 * 17 GSUs = US $45.900 por mês. Se quisessem manter essa capacidade por três meses, o custo seria de US $2.400 * 17 GSUs = US $40.800 por mês. Por fim, se quisessem manter essa capacidade por um ano, o custo seria de US $2.000 * 17 GSUs = US $34.000 por mês.
Compare os preços dos modelos de parceiros na Vertex AI
Os modelos de parceiros são uma lista selecionada de modelos de IA generativa desenvolvidos por parceiros do Google. Os modelos de parceiros são oferecidos como APIs gerenciadas. Para mais informações, consulte Visão geral dos modelos de parceiros. As seções a seguir listam os detalhes de preços dos modelos de parceiros do Google.
Modelos da AI21 Labs
Modelo | Preços |
---|---|
Jamba 1.5 Large | Entrada: US$ 2 / milhão de tokens Saída: US$ 8 / milhão de tokens |
Jamba 1.5 Mini | Entrada: US$ 0,20 / milhão de tokens Saída: US$ 0,40 / milhão de tokens |
Modelos Claude da Anthropic
Modelo | Preços |
---|---|
Claude 3.7 Sonnet | Entrada: US$ 3 / milhão de tokens Saída: US$ 15 / milhão de tokens Entrada em lote: US$ 1,50 / milhão de tokens Saída em lote: US$ 7,50 / milhão de tokens Gravação em cache: US$ 3,75 / milhão de tokens Cache encontrado: US$ 0,30 / milhão de tokens Gravação em cache em lote: US$ 1,875 / milhão de tokens Cache encontrado em lote: US$ 0,15 / milhão de tokens |
Claude 3.5 Haiku | Entrada: US$ 0,80 / milhão de tokens Saída: US$ 4 / milhão de tokens Entrada em lote: US$ 0,40 / milhão de tokens Saída em lote: US$ 2 / milhão de tokens Gravação em cache: US$ 1 / milhão de tokens Cache atingido: US$ 0,08 / milhão de tokens Gravação em cache em lote: US$ 0,50 / milhão de tokens Cache atingido em lote: US$ 0,04 / milhão de tokens |
Claude 3.5 Sonnet v2 | Entrada: US$ 3 / milhão de tokens Saída: US$ 15 / milhão de tokens Entrada em lote: US$ 1,50 / milhão de tokens Saída em lote: US$ 7,50 / milhão de tokens Gravação em cache: US$ 3,75 / milhão de tokens Cache encontrado: US$ 0,30 / milhão de tokens Gravação em cache em lote: US$ 1,875 / milhão de tokens Cache encontrado em lote: US$ 0,15 / milhão de tokens |
Claude 3.5 Sonnet | Entrada: US$ 3 / milhão de tokens Saída: US$ 15 / milhão de tokens Gravação no cache: US$ 3,75 / milhão de tokens Cache hit: US$ 0,30 / milhão de tokens |
Claude 3 Haiku | Entrada: US$ 0,25 / milhão de tokens Saída: US$ 1,25 / milhão de tokens Gravação no cache: US$ 0,30 / milhão de tokens Cache hit: US$ 0,03 / milhão de tokens |
Claude 3 Sonnet (deprecated) | Entrada: US$ 3 / milhão de tokens Saída: US$ 15 / milhão de tokens |
Claude 3 Opus | Entrada: US$ 15 / milhão de tokens Saída: US$ 75 / milhão de tokens Gravação em cache: US$ 18,75 / milhão de tokens Cache acessado: US$ 1,50 / milhão de tokens |
Modelos Llama da Meta
Modelo | Preços |
---|---|
Llama 3.1 405B | Entrada: US$ 5,00 / milhão de tokens Saída: US$ 16,00 / milhão de tokens |
Llama 3.3 70B * | Entrada: US$ 0,72 / milhão de tokens Saída: US$ 0,72 / milhão de tokens |
Llama 4 Scout * | Entrada: US$ 0,25 / milhão de tokens Saída: US$ 0,70 / milhão de tokens |
Mack de 4 Llamas * | Entrada: US$ 0,35 / milhão de tokens Saída: US$ 1,15 / milhão de tokens |
- Disponível sem custos financeiros até 1º de maio de 2025.
Modelos da Mistral AI
Modelo | Preços |
---|---|
Mistral Small 3.1 (25.03) | Entrada: US$ 0,10 / milhão de tokens Saída: US$ 0,30 / milhão de tokens |
Mistral Large (24.11) | Entrada: US$ 2,00 / milhão de tokens Saída: US$ 6,00 / milhão de tokens |
Mistral Nemo | Entrada: US$ 0,15 / milhão de tokens Saída: US$ 0,15 / milhão de tokens |
Codestral (25.01) | Entrada: US$ 0,30 / milhão de tokens Saída: US$ 0,90 / milhão de tokens |