Información general sobre el almacenamiento en caché de contextos

El almacenamiento en caché de contexto ayuda a reducir el coste y la latencia de las solicitudes a Gemini que contienen contenido repetido. Vertex AI ofrece dos tipos de almacenamiento en caché:

  • Almacenamiento en caché implícito: almacenamiento en caché automático habilitado de forma predeterminada que proporciona ahorros de costes cuando se producen aciertos de caché.
  • Almacenamiento en caché explícito: almacenamiento en caché manual habilitado mediante la API Vertex AI, donde declaras explícitamente el contenido que quieres almacenar en caché y si tus peticiones deben hacer referencia al contenido de la caché.

Tanto en el almacenamiento en caché implícito como en el explícito, el campo cachedContentTokenCount de los metadatos de tu respuesta indica el número de tokens de la parte almacenada en caché de tu entrada. Las solicitudes de almacenamiento en caché deben contener un mínimo de 2048 tokens.

Modelos admitidos

Se admite el almacenamiento en caché implícito y explícito cuando se usan los siguientes modelos:

Tanto en el almacenamiento en caché implícito como en el explícito, no se aplican cargos adicionales por escribir en la caché, aparte de los costes estándar de los tokens de entrada. En el caso del almacenamiento en caché explícito, hay costes de almacenamiento en función del tiempo que se almacenen las cachés. El almacenamiento en caché implícito no tiene ningún coste. Para obtener más información, consulta los precios de Vertex AI.

Almacenamiento en caché implícito

Todos los Google Cloud proyectos tienen el almacenamiento en caché implícito habilitado de forma predeterminada. El almacenamiento en caché implícito ofrece un descuento del 75% en los tokens almacenados en caché en comparación con los tokens de entrada estándar.

Si está habilitada, los ahorros de costes de aciertos de caché implícitos se te aplican automáticamente. Para aumentar las probabilidades de que se produzca un acierto de caché implícito, haz lo siguiente:

  • Coloca el contenido más extenso y habitual al principio de la petición.
  • Enviar solicitudes con un prefijo similar en un breve periodo de tiempo.

Almacenamiento en caché explícito

El almacenamiento en caché explícito ofrece más control y garantiza un descuento del 75% cuando se hace referencia a cachés explícitas.

Con la API de Vertex AI, puedes hacer lo siguiente:

También puedes usar la API de Vertex AI para obtener información sobre una caché de contexto.

Las cachés explícitas interactúan con el almacenamiento en caché implícito, lo que puede provocar que se almacene en caché contenido adicional al especificado al crear una caché. Para evitar que se conserven los datos de la caché, inhabilita el almacenamiento en caché implícito y no crees cachés explícitas. Para obtener más información, consulta el artículo Habilitar e inhabilitar el almacenamiento en caché.

Cuándo usar el almacenamiento en caché de contexto

El almacenamiento en caché de contexto es especialmente adecuado para situaciones en las que las solicitudes posteriores hacen referencia repetidamente a un contexto inicial considerable.

Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de vídeo, se pueden usar en las solicitudes de peticiones a la API de Gemini para generar resultados. Las solicitudes que usan la misma caché en la petición también incluyen texto único para cada petición. Por ejemplo, cada solicitud de petición que compone una conversación de chat puede incluir la misma caché de contexto que hace referencia a un vídeo junto con un texto único que comprende cada turno del chat.

Considera la posibilidad de usar el almacenamiento en caché del contexto en casos prácticos como los siguientes:

  • Bots de chat con instrucciones de sistema extensas
  • Análisis repetitivo de archivos de vídeo largos
  • Consultas periódicas en grandes conjuntos de documentos
  • Análisis frecuente de repositorios de código o corrección de errores

La compatibilidad con el almacenamiento en caché de contexto para el rendimiento aprovisionado está en vista previa para el almacenamiento en caché implícito. No se admite el almacenamiento en caché explícito para el rendimiento aprovisionado. Consulta la guía de rendimiento aprovisionado para obtener más información.

Disponibilidad

El almacenamiento en caché de contexto está disponible en las regiones en las que se ofrece la IA generativa en Vertex AI. Para obtener más información, consulta las ubicaciones de la IA generativa en Vertex AI.

Límites

El contenido que almacenes en caché de forma explícita debe cumplir los límites que se muestran en la siguiente tabla:

Límites de almacenamiento en caché del contexto

Número mínimo de tokens de caché

2,048 para todos los modelos

Tamaño máximo del contenido que puedes almacenar en caché mediante un blob o texto

10 MB

Tiempo mínimo antes de que caduque una caché después de crearse.

1 minuto

Tiempo máximo antes de que caduque una caché después de crearse.

No hay una duración máxima de la caché

Compatible con los Controles de Servicio de VPC

El almacenamiento en caché contextual es compatible con Controles de Servicio de VPC, lo que significa que tu caché no se puede extraer fuera de tu perímetro de servicio. Si usas Cloud Storage para crear tu caché, incluye tu segmento en tu perímetro de servicio para proteger el contenido de la caché.

Para obtener más información, consulta Controles de Servicio de VPC con Vertex AI en la documentación de Vertex AI.

Siguientes pasos