Os modelos do Anthropic Claude oferecem cache de comandos para reduzir a latência e os custos ao reutilizar o mesmo conteúdo em várias solicitações. Ao enviar uma consulta, você pode armazenar em cache todas ou partes específicas da entrada para que as consultas subsequentes usem os resultados armazenados em cache da solicitação anterior. Isso evita custos adicionais de computação e rede. Os caches são exclusivos do seu projeto Google Cloud e não podem ser usados por outros projetos.
Para detalhes sobre como estruturar seus comandos, consulte a documentação do Anthropic sobre armazenamento em cache de comandos.
Modelos Anthropic Claude compatíveis
A Vertex AI oferece suporte ao cache de comandos para os seguintes modelos do Claude da Anthropic:
- Claude Opus 4
- Claude Sonnet 4
- Claude 3.7 Sonnet
- Claude 3.5 Sonnet v2
- Claude 3.5 Haiku
- Claude 3.5 Sonnet
- Claude 3 Opus
- Claude 3 Haiku
Processamento de dados
O cache de solicitações explícitas da Anthropic é um recurso dos modelos Claude da Anthropic. A oferta da Vertex AI desses modelos da Anthropic funciona conforme descrito na documentação da Anthropic.
O cache de comandos é um recurso opcional. O Claude calcula os hashes (impressões digitais) das solicitações para chaves de cache. Esses hashes só são calculados para solicitações que têm o cache ativado.
Embora o cache de comandos seja um recurso implementado pelos modelos do Claude, do ponto de vista do tratamento de dados, o Google considera esses hashes como um tipo de "metadados do usuário". Eles são tratados como "Dados de serviço" do cliente de acordo com o Aviso de privacidade (link em inglês) e não como "Dados do cliente" de acordo com o Aditivo sobre tratamento de dados do Cloud (Clientes).Google Cloud Em especial, as proteções adicionais para "Dados do cliente" não se aplicam a esses hashes. O Google não usa esses hashes para nenhuma outra finalidade.
Se você quiser desativar completamente esse recurso de cache de comandos e torná-lo indisponível em projetos específicos do Google Cloud , entre em contato com o suporte ao cliente e informe os números dos projetos relevantes. Depois que o cache explícito é desativado para um projeto, as solicitações do projeto com o cache de comandos ativado são rejeitadas.
Usar o armazenamento em cache de comandos
É possível usar o SDK do Anthropic Claude ou a API REST da Vertex AI para enviar solicitações ao endpoint da Vertex AI.
Para mais informações, consulte Como funciona o armazenamento em cache de comandos.
Para mais exemplos, consulte os Exemplos de cache de comandos na documentação do Anthropic.
O cache ocorre automaticamente quando as solicitações subsequentes contêm o mesmo texto, imagens e parâmetro cache_control
da primeira solicitação. Todas as solicitações também precisam incluir o parâmetro cache_control
nos mesmos blocos.
O cache tem uma vida útil de cinco minutos. Ele é atualizado sempre que o conteúdo em cache é acessado.
Preços
O armazenamento em cache de comandos pode afetar os custos de faturamento. Algumas considerações:
- Os tokens de gravação em cache são 25% mais caros do que os tokens de entrada básicos.
- Os tokens de leitura do cache são 90% mais baratos do que os tokens de entrada básicos
- Os tokens de entrada e saída regulares são cobrados de acordo com as taxas padrão.
Para mais informações, consulte a página de preços.