Esta página se ha traducido con Cloud Translation API.

Información general sobre el almacenamiento en caché de contextos

El almacenamiento en caché de contexto ayuda a reducir el coste y la latencia de las solicitudes a Gemini que contienen contenido repetido. Vertex AI ofrece dos tipos de almacenamiento en caché:

Almacenamiento en caché implícito: almacenamiento en caché automático habilitado de forma predeterminada que proporciona ahorros de costes cuando se producen aciertos de caché.
Almacenamiento en caché explícito: almacenamiento en caché manual habilitado mediante la API Vertex AI, donde declaras explícitamente el contenido que quieres almacenar en caché y si tus peticiones deben hacer referencia al contenido almacenado en caché.

Tanto en el almacenamiento en caché implícito como en el explícito, el campo cachedContentTokenCount de los metadatos de tu respuesta indica el número de tokens de la parte almacenada en caché de tu entrada. Las solicitudes de almacenamiento en caché deben contener un mínimo de 2048 tokens.

Costes de almacenamiento en caché

Tanto en el almacenamiento en caché implícito como en el explícito, no se aplican cargos adicionales por escribir en la caché, aparte de los costes estándar de los tokens de entrada. En el caso del almacenamiento en caché explícito, hay costes de almacenamiento en función del tiempo que se almacenen las cachés. El almacenamiento en caché implícito no tiene ningún coste. Para obtener más información, consulta los precios de Vertex AI.

Almacenamiento en caché implícito

Todos los Google Cloud proyectos tienen el almacenamiento en caché implícito habilitado de forma predeterminada. El almacenamiento en caché implícito ofrece un descuento del 90% en los tokens almacenados en caché en comparación con los tokens de entrada estándar.

Si está habilitada, los ahorros de costes de aciertos de caché implícitos se te aplican automáticamente. Para aumentar las probabilidades de que se produzca un acierto de caché implícito, haz lo siguiente:

Coloca el contenido más extenso y habitual al principio de la petición.
Enviar solicitudes con un prefijo similar en un breve periodo de tiempo.

Modelos admitidos

La caché implícita se admite cuando se usan los siguientes modelos:

Gemini 2.5 Flash (versión preliminar)
Gemini 2.5 Flash-Lite (versión preliminar)
Gemini 2.5 Flash-Lite
Gemini 2.5 Pro
Gemini 2.5 Flash

El almacenamiento en caché implícito también admite los alias más recientes, entre los que se incluyen los siguientes:

gemini-flash-latest
gemini-flash-lite-latest

Almacenamiento en caché explícito

El almacenamiento en caché explícito ofrece más control y asegura un descuento cuando se hace referencia a cachés explícitas. En los modelos Gemini 2.5, este descuento es del 90%, mientras que en los modelos Gemini 2.0 es del 75%.

Con la API de Vertex AI, puedes hacer lo siguiente:

Crea cachés de contexto y contrólalas de forma más eficaz.
Usa una caché de contexto haciendo referencia a su contenido en una solicitud de petición con su nombre de recurso.
Actualizar el tiempo de vencimiento (tiempo de vida o TTL) de una caché de contexto más allá de los 60 minutos predeterminados.
Elimina una caché de contexto cuando ya no la necesites.

También puedes usar la API de Vertex AI para obtener información sobre una caché de contexto.

Las cachés explícitas interactúan con el almacenamiento en caché implícito, lo que puede provocar que se almacene en caché contenido adicional al especificado al crear una caché. Para evitar que se conserven los datos de la caché, inhabilita el almacenamiento en caché implícito y no crees cachés explícitas. Para obtener más información, consulta el artículo Habilitar e inhabilitar el almacenamiento en caché.

Modelos admitidos

Se admite el almacenamiento en caché explícito cuando se usan los siguientes modelos:

Gemini 2.5 Flash (versión preliminar)
Gemini 2.5 Flash-Lite (versión preliminar)
Gemini 2.5 Flash-Lite
Gemini 2.5 Pro
Gemini 2.5 Flash
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

El almacenamiento en caché explícito también admite los alias más recientes, incluidos los siguientes:

gemini-flash-latest
gemini-flash-lite-latest

Cuándo usar el almacenamiento en caché de contexto

El almacenamiento en caché de contexto es especialmente adecuado para situaciones en las que las solicitudes posteriores hacen referencia repetidamente a un contexto inicial considerable.

Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de vídeo, se pueden usar en las solicitudes de peticiones a la API de Gemini para generar resultados. Las solicitudes que usan la misma caché en la petición también incluyen texto único para cada petición. Por ejemplo, cada solicitud de petición que compone una conversación de chat puede incluir la misma caché de contexto que hace referencia a un vídeo junto con un texto único que comprende cada turno del chat.

Considera la posibilidad de usar el almacenamiento en caché del contexto en casos prácticos como los siguientes:

Bots de chat con instrucciones de sistema extensas
Análisis repetitivo de archivos de vídeo largos
Consultas periódicas en grandes conjuntos de documentos
Análisis frecuente de repositorios de código o corrección de errores

La compatibilidad con el almacenamiento en caché de contexto para el rendimiento aprovisionado está en vista previa para el almacenamiento en caché implícito. No se admite el almacenamiento en caché explícito para el rendimiento aprovisionado. Consulta la guía de rendimiento aprovisionado para obtener más información.

Disponibilidad

El almacenamiento en caché de contexto está disponible en las regiones en las que se ofrece la IA generativa en Vertex AI. Para obtener más información, consulta las ubicaciones de la IA generativa en Vertex AI.

Límites

El contenido que almacenes en caché de forma explícita debe cumplir los límites que se muestran en la siguiente tabla:

Límites de almacenamiento en caché del contexto
Número mínimo de tokens de caché	`2,048` para todos los modelos
Tamaño máximo del contenido que puedes almacenar en caché mediante un blob o texto	10 MB
Tiempo mínimo antes de que caduque una caché después de crearse.	1 minuto
Tiempo máximo antes de que caduque una caché después de crearse.	No hay una duración máxima de la caché

Compatible con los Controles de Servicio de VPC

El almacenamiento en caché contextual es compatible con Controles de Servicio de VPC, lo que significa que tu caché no se puede extraer fuera de tu perímetro de servicio. Si usas Cloud Storage para crear tu caché, incluye tu segmento en tu perímetro de servicio para proteger el contenido de la caché.

Para obtener más información, consulta Controles de Servicio de VPC con Vertex AI en la documentación de Vertex AI.

Siguientes pasos

Consulta información sobre la API de Gemini.
Consulta cómo usar las peticiones multimodales.