Almacenamiento en caché inmediato

Los modelos Claude de Anthropic ofrecen almacenamiento en caché de instrucciones para reducir la latencia y los costos cuando se reutiliza el mismo contenido en varias solicitudes. Cuando envías una consulta, puedes almacenar en caché todas las partes de tu entrada o solo algunas para que las consultas posteriores puedan usar los resultados almacenados en caché de la solicitud anterior. Esto evita costos adicionales de procesamiento y red. Las cachés son exclusivas de tu proyecto Google Cloud y no pueden ser utilizadas por otros proyectos.

Para obtener detalles sobre cómo estructurar tus instrucciones, consulta la documentación de Almacenamiento en caché de instrucciones de Anthropic.

Modelos de Anthropic Claude compatibles

Vertex AI admite el almacenamiento en caché de instrucciones para los siguientes modelos de Anthropic Claude:

Procesamiento de datos

El almacenamiento en caché de instrucciones explícitas de Anthropic es una función de los modelos Claude de Anthropic. La oferta de Vertex AI de estos modelos de Anthropic se comporta como se describe en la documentación de Anthropic.

El almacenamiento en caché de instrucciones es una función opcional. Claude calcula los hashes (huellas digitales) de las solicitudes para las claves de almacenamiento en caché. Estos hashes solo se calculan para las solicitudes que tienen habilitado el almacenamiento en caché.

Si bien el almacenamiento en caché de instrucciones es una función implementada por los modelos de Claude, desde una perspectiva de manejo de datos, Google considera que estos hashes son un tipo de "metadatos del usuario". Se consideran "Datos del Servicio" del cliente en virtud del Google Cloud Aviso de Privacidad y no como "Datos del Cliente" en virtud del Anexo de Tratamiento de Datos de Cloud (Clientes). En particular, las protecciones adicionales para los "Datos del Cliente" no se aplican a estos hashes. Google no usa estos hashes para ningún otro propósito.

Si deseas inhabilitar por completo esta función de almacenamiento en caché de instrucciones y hacer que no esté disponible en proyectos Google Cloud particulares, puedes solicitarlo comunicándote con el equipo de asistencia al cliente y proporcionando los números de proyecto pertinentes. Después de inhabilitar el almacenamiento en caché explícito para un proyecto, se rechazan las solicitudes del proyecto con el almacenamiento en caché de instrucciones habilitado.

Usa el almacenamiento en caché de instrucciones

Puedes usar el SDK de Anthropic Claude o la API de REST de Vertex AI para enviar solicitudes al extremo de Vertex AI.

Para obtener más información, consulta Cómo funciona el almacenamiento en caché de instrucciones.

Para obtener ejemplos adicionales, consulta los ejemplos de almacenamiento en caché de instrucciones en la documentación de Anthropic.

El almacenamiento en caché se produce automáticamente cuando las solicitudes posteriores contienen el mismo texto, las mismas imágenes y el mismo parámetro cache_control que la primera solicitud. Todas las solicitudes también deben incluir el parámetro cache_control en los mismos bloques.

La caché tiene una vida útil de cinco minutos. Se actualiza cada vez que se accede al contenido almacenado en caché.

Precios

El almacenamiento en caché de instrucciones puede afectar los costos de facturación. Ten en cuenta lo siguiente:

  • Los tokens de escritura en caché son un 25% más costosos que los tokens de entrada básicos.
  • Los tokens de lectura de caché son un 90% más económicos que los tokens de entrada básicos.
  • Los tokens de entrada y salida normales se cobran según las tarifas estándar.

Para obtener más información, consulta la página de precios.