Almacenamiento en caché de peticiones

Los modelos Claude de Anthropic ofrecen almacenamiento en caché de las peticiones para reducir la latencia y los costes al reutilizar el mismo contenido en varias solicitudes. Cuando envías una consulta, puedes almacenar en caché todas las partes de tu entrada o solo algunas para que las consultas posteriores puedan usar los resultados almacenados en caché de la solicitud anterior. De esta forma, se evitan costes adicionales de computación y de red. Las cachés son exclusivas de tu Google Cloud proyecto y no se pueden usar en otros proyectos.

Para obtener información sobre cómo estructurar tus peticiones, consulta la documentación de almacenamiento en caché de peticiones de Anthropic.

Modelos Claude de Anthropic admitidos

Vertex AI admite el almacenamiento en caché de peticiones para los siguientes modelos Claude de Anthropic:

Procesamiento de datos

El almacenamiento en caché de peticiones explícitas de Anthropic es una función de los modelos Claude de Anthropic. La oferta de Vertex AI de estos modelos de Anthropic se comporta como se describe en la documentación de Anthropic.

El almacenamiento en caché de las peticiones es una función opcional. Claude calcula los hashes (huellas digitales) de las solicitudes de claves de caché. Estos hashes solo se calculan para las solicitudes que tienen habilitada la caché.

Aunque el almacenamiento en caché de las peticiones es una función implementada por los modelos de Claude, desde el punto de vista del tratamiento de datos, Google considera que estos hashes son un tipo de "metadatos de usuario". Se tratan como "Datos de Servicio" de los clientes en virtud del Google CloudAviso de Privacidad y no como "Datos de Clientes" en virtud de la Adenda sobre Tratamiento de Datos de Cloud (Clientes). En concreto, las protecciones adicionales de los "Datos de Clientes" no se aplican a estos hashes. Google no usa estos hashes para ningún otro fin.

Si quieres inhabilitar por completo esta función de almacenamiento en caché de peticiones y hacer que no esté disponible en determinados proyectos, puedes solicitarlo poniéndote en contacto con el equipo de Asistencia y proporcionando los números de proyecto correspondientes. Google Cloud Una vez que se ha inhabilitado el almacenamiento en caché explícito de un proyecto, se rechazan las solicitudes del proyecto en el que se ha habilitado el almacenamiento en caché de peticiones.

Usar el almacenamiento en caché de peticiones

Puedes usar el SDK de Anthropic Claude o la API REST de Vertex AI para enviar solicitudes al endpoint de Vertex AI.

Para obtener más información, consulta Cómo funciona el almacenamiento en caché de las peticiones.

Para ver más ejemplos, consulta los ejemplos de almacenamiento en caché de peticiones en la documentación de Anthropic.

El almacenamiento en caché se produce automáticamente cuando las solicitudes posteriores contienen el mismo texto, las mismas imágenes y el mismo parámetro cache_control que la primera solicitud. Todas las solicitudes también deben incluir el parámetro cache_control en los mismos bloques.

La caché tiene una duración de cinco minutos. Se actualiza cada vez que se accede al contenido almacenado en caché.

Precios

El almacenamiento en caché de las peticiones puede afectar a los costes de facturación. Ten en cuenta que:

  • Los tokens de escritura en caché son un 25% más caros que los tokens de entrada básicos
  • Los tokens de lectura de caché son un 90% más baratos que los tokens de entrada base
  • Los tokens de entrada y salida normales se cobran a las tarifas estándar.

Para obtener más información, consulta la página de precios.