A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estarão disponíveis em projetos que não os usaram antes, incluindo novos projetos. Para mais detalhes, consulte Versões e ciclo de vida do modelo.

Esta página foi traduzida pela API Cloud Translation.

Visão geral do armazenamento em cache de contexto

O armazenamento em cache de contexto visa reduzir o custo e a latência das solicitações ao Gemini que contêm conteúdo repetido.

Por padrão, o Google armazena automaticamente em cache as entradas de todos os modelos do Gemini para reduzir a latência e acelerar as respostas aos comandos subsequentes.

Para os modelos Gemini 2.5 Flash (contagem mínima de tokens de entrada de 1.024) e Gemini 2.5 Pro (contagem mínima de tokens de entrada de 2.048), os tokens de entrada armazenados em cache são cobrados com um desconto de 75% em relação aos tokens de entrada padrão quando ocorre um ocorrência em cache.

Veja as informações do token ocorrência em cache no campo de metadados das respostas. Para desativar essa opção, consulte IA generativa e governança de dados.

Com a API Vertex AI, é possível criar caches de contexto e ter mais controle sobre eles:

Usar um cache de contexto fazendo referência ao conteúdo dele em uma solicitação de prompt com o nome do recurso.
Atualizar o prazo de validade (TTL) de um cache de contexto além dos 60 minutos padrão.
Excluir um cache de contexto quando ele não for mais necessário.

Também é possível usar a API Vertex AI para receber informações sobre um cache de contexto.

As solicitações de armazenamento em cache usando a API Vertex AI cobram tokens de entrada com o mesmo desconto de 75% em relação aos tokens de entrada padrão e garantem economia de custos. Também há uma cobrança de armazenamento com base no período em que os dados são armazenados.

Quando usar o armazenamento em cache de contexto

O armazenamento em cache de contexto é particularmente adequado para cenários em que um contexto inicial substancial é referenciado repetidamente por solicitações subsequentes.

Itens de contexto armazenados em cache, como uma grande quantidade de texto, um arquivo de áudio ou um arquivo de vídeo, podem ser usados em solicitações de comando à API Gemini para gerar saída. Solicitações que usam o mesmo cache no comando também podem incluir textos exclusivos para cada comando. Por exemplo, cada solicitação de comando que compõe uma conversa no chat pode incluir o mesmo cache de contexto que faz referência a um vídeo junto com um texto exclusivo que compreende cada turno no chat.

Use armazenamento em cache de contexto para casos de uso como estes:

Chatbots com instruções abrangentes do sistema
Análise repetitiva de arquivos de vídeo longos
Consultas recorrentes em grandes conjuntos de documentos
Análise frequente do repositório de código ou correção de bugs

Economia com o armazenamento em cache

O armazenamento em cache de contexto é um recurso pago projetado para reduzir os custos operacionais gerais. O faturamento é baseado nos seguintes fatores:

Contagem de tokens de cache: o número de tokens de entrada armazenados em cache, faturados com uma taxa reduzida quando incluído nos comandos subsequentes.
Duração do armazenamento: o tempo de armazenamento e cobrança dos tokens em cache, por hora. Os tokens em cache são excluídos quando um cache de contexto expira.
Outros fatores: outras cobranças se aplicam, como tokens de entrada não armazenados em cache e tokens de saída.

O número de tokens na parte armazenada em cache da sua entrada pode ser encontrado no campo de metadados da resposta, em cachedContentTokenCount.

O suporte ao armazenamento em cache de contexto para a Capacidade de Processamento Provisionada está em Pré-lançamento para o armazenamento em cache padrão. O cache de contexto usando a API Vertex AI não é compatível com a capacidade de transmissão provisionada. Consulte o guia de capacidade de transmissão provisionada para mais detalhes.

Modelos compatíveis

Os seguintes modelos do Gemini são compatíveis com o armazenamento em cache de contexto:

Para mais informações, consulte Versões do modelo estáveis do Gemini disponíveis. O armazenamento em cache de contexto oferece suporte a todos os tipos MIME para modelos compatíveis.

Disponibilidade

O armazenamento em cache de contexto está disponível nas regiões em que a IA generativa na Vertex AI está disponível. Para mais informações, consulte IA generativa em locais da Vertex AI.

Suporte do VPC Service Controls

O armazenamento em cache de contexto é compatível com o VPC Service Controls, o que significa que o cache não pode ser exfiltrado além do perímetro de serviço. Se você usa o Cloud Storage para criar seu cache, inclua o bucket no perímetro de serviço também para proteger o conteúdo do cache.

Para mais informações, consulte VPC Service Controls com a Vertex AI na documentação da Vertex AI.

A seguir

Saiba mais sobre a API Gemini.
Saiba como usar comandos multimodais.