A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estarão disponíveis em projetos que não os usaram antes, incluindo novos projetos. Para mais detalhes, consulte Versões e ciclo de vida do modelo.

Esta página foi traduzida pela API Cloud Translation.

Armazenamento em cache do comando

Os modelos do Anthropic Claude oferecem cache de comandos para reduzir a latência e os custos ao reutilizar o mesmo conteúdo em várias solicitações. Ao enviar uma consulta, você pode armazenar em cache todas ou partes específicas da entrada para que as consultas subsequentes usem os resultados armazenados em cache da solicitação anterior. Isso evita custos adicionais de computação e rede. Os caches são exclusivos do seu projeto Google Cloud e não podem ser usados por outros projetos.

Para detalhes sobre como estruturar seus comandos, consulte a documentação de armazenamento em cache de comandos da Anthropic.

Modelos Anthropic Claude compatíveis

A Vertex AI oferece suporte ao cache de comandos para os seguintes modelos do Claude da Anthropic:

Processamento de dados

O cache de solicitações explícitas da Anthropic é um recurso dos modelos Claude da Anthropic. A oferta da Vertex AI desses modelos da Anthropic funciona conforme descrito na documentação da Anthropic.

O cache de comandos é um recurso opcional. O Claude calcula os hashes (impressões digitais) das solicitações para chaves de cache. Esses hashes só são calculados para solicitações que têm o cache ativado.

Embora o cache de comandos seja um recurso implementado pelos modelos do Claude, do ponto de vista do tratamento de dados, o Google considera esses hashes como um tipo de "metadados do usuário". Eles são tratados como "Dados de serviço" do cliente de acordo com o Aviso de privacidade (link em inglês) e não como "Dados do cliente" de acordo com o Aditivo sobre tratamento de dados do Cloud (Clientes).Google Cloud Em especial, as proteções adicionais para "Dados do cliente" não se aplicam a esses hashes. O Google não usa esses hashes para nenhuma outra finalidade.

Se você quiser desativar completamente esse recurso de cache de comandos e torná-lo indisponível em projetos específicos do Google Cloud , entre em contato com o suporte ao cliente e informe os números dos projetos relevantes. Depois que o cache explícito é desativado para um projeto, as solicitações do projeto com o cache de comandos ativado são rejeitadas.

Usar o armazenamento em cache de comandos

É possível usar o SDK do Anthropic Claude ou a API REST da Vertex AI para enviar solicitações ao endpoint da Vertex AI.

Para mais informações, consulte Como funciona o armazenamento em cache de comandos.

Para mais exemplos, consulte os Exemplos de cache de comandos na documentação do Anthropic.

O cache ocorre automaticamente quando as solicitações subsequentes contêm o mesmo texto, imagens e parâmetro cache_control da primeira solicitação. Todas as solicitações também precisam incluir o parâmetro cache_control nos mesmos blocos.

O cache tem uma vida útil de cinco minutos. Ele é atualizado sempre que o conteúdo em cache é acessado.

Preços

O armazenamento em cache de comandos pode afetar os custos de faturamento. Algumas considerações:

Os tokens de gravação em cache são 25% mais caros do que os tokens de entrada básicos.
Os tokens de leitura do cache são 90% mais baratos do que os tokens de entrada básicos
Os tokens de entrada e saída regulares são cobrados de acordo com as taxas padrão.

Para mais informações, consulte a página de preços.

Armazenamento em cache do comando Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos Anthropic Claude compatíveis

Processamento de dados

Usar o armazenamento em cache de comandos

Preços

Armazenamento em cache do comando