O objetivo do armazenamento em cache de contexto é reduzir o custo e a latência das solicitações ao Gemini que contêm conteúdo repetido.
Por padrão, o Google armazena automaticamente as entradas de todos os modelos Gemini em cache para reduzir a latência e acelerar as respostas para comandos subsequentes.
Para os modelos Gemini 2.5 Flash (contagem mínima de tokens de entrada de 1.024) e Gemini 2.5 Pro (contagem mínima de tokens de entrada de 2.048), os tokens de entrada em cache são cobrados com um desconto de 75% em relação aos tokens de entrada padrão quando ocorre uma ocorrência em cache.
Confira as informações do token ocorrência em cache no campo de metadados das respostas. Para desativar essa opção, consulte IA generativa e governança de dados.
Com a API Vertex AI, é possível criar caches de contexto e ter mais controle sobre eles:
- Use um cache de contexto fazendo referência ao conteúdo dele em uma solicitação de prompt com o nome do recurso.
- Atualização do tempo de expiração (TTL) de um cache de contexto além do padrão de 60 minutos.
- Excluir um cache de contexto quando ele não for mais necessário.
Também é possível usar a API Vertex AI para receber informações sobre um cache de contexto.
As solicitações de armazenamento em cache que usam a API Vertex AI cobram tokens de entrada com o mesmo desconto de 75% em relação aos tokens de entrada padrão e garantem economia de custos. Também há uma cobrança de armazenamento com base no tempo em que os dados são armazenados.
Quando usar o armazenamento em cache de contexto
O armazenamento em cache de contexto é particularmente adequado para cenários em que um contexto inicial substancial é referenciado repetidamente por solicitações subsequentes.
Itens de contexto armazenados em cache, como uma grande quantidade de texto, um arquivo de áudio ou um arquivo de vídeo, podem ser usados em solicitações de comando à API Gemini para gerar saída. As solicitações que usam o mesmo cache no comando também incluem texto exclusivo para cada comando. Por exemplo, cada solicitação de comando que compõe uma conversa no chat pode incluir o mesmo cache de contexto que faz referência a um vídeo junto com um texto exclusivo que compreende cada turno no chat.
Use o armazenamento em cache de contexto para casos de uso como estes:
- Chatbots com instruções abrangentes do sistema
- Análise repetitiva de arquivos de vídeo longos
- Consultas recorrentes em grandes conjuntos de documentos
- Análise frequente do repositório de código ou correção de bugs
Economia com o armazenamento em cache
O armazenamento em cache de contexto é um recurso pago projetado para reduzir os custos operacionais gerais. O faturamento é baseado nos seguintes fatores:
- Contagem de tokens de cache: o número de tokens de entrada armazenados em cache, faturados com uma taxa reduzida quando incluído nos comandos subsequentes.
- Duração do armazenamento: o tempo de armazenamento e cobrança dos tokens em cache, por hora. Os tokens em cache são excluídos quando um cache de contexto expira.
- Outros fatores: outras cobranças se aplicam, como tokens de entrada não armazenados em cache e tokens de saída.
O armazenamento em cache de contexto não oferece suporte ao throughput provisionado. As solicitações de capacidade de processamento provisionada que usam o armazenamento em cache de contexto são tratadas como pagamento por uso.
Modelos compatíveis
Os seguintes modelos do Gemini são compatíveis com o armazenamento em cache de contexto:
Para mais informações, consulte Versões do modelo estáveis do Gemini disponíveis. O armazenamento em cache de contexto oferece suporte a todos os tipos MIME para modelos compatíveis.
Disponibilidade
O armazenamento em cache de contexto está disponível nas regiões em que a IA generativa na Vertex AI está disponível. Para mais informações, consulte IA generativa em locais da Vertex AI.
Suporte do VPC Service Controls
O armazenamento em cache de contexto oferece suporte ao VPC Service Controls, o que significa que seu cache não pode ser exfiltrado além do perímetro de serviço. Se você usa o Cloud Storage para criar seu cache, inclua o bucket no perímetro de serviço para proteger o conteúdo do cache.
Para mais informações, consulte VPC Service Controls com a Vertex AI na documentação da Vertex AI.
A seguir
- Saiba mais sobre a API Gemini.
- Saiba como usar comandos multimodais.