El almacenamiento en caché del contexto tiene como objetivo reducir el costo y la latencia de las solicitudes a Gemini que contienen contenido repetido.
De forma predeterminada, Google almacena automáticamente en caché las entradas de todos los modelos de Gemini para reducir la latencia y acelerar las respuestas a las instrucciones posteriores.
En el caso de los modelos Gemini 2.5 Flash (recuento mínimo de tokens de entrada de 1,024) y Gemini 2.5 Pro (recuento mínimo de tokens de entrada de 2,048), los tokens de entrada almacenados en caché se cobran con un descuento del 75% en relación con los tokens de entrada estándar cuando se produce un acierto de caché.
Consulta la información del token de acierto de caché en el campo de metadatos de las respuestas. Para inhabilitar esta función, consulta IA generativa y administración de datos.
A través de la API de Vertex AI, puedes crear cachés de contexto y ejercer más control sobre ellas de las siguientes maneras:
- Usar una caché de contexto haciendo referencia a su contenido en una solicitud de mensaje con su nombre de recurso
- Actualizar el tiempo de actividad (TTL) de una caché de contexto más allá de los 60 minutos predeterminados
- Borra una caché de contexto cuando ya no la necesites.
También puedes usar la API de Vertex AI para obtener información sobre una caché de contexto.
Ten en cuenta que las solicitudes de almacenamiento en caché que usan la API de Vertex AI cobran los tokens de entrada con el mismo descuento del 75% en relación con los tokens de entrada estándar y proporcionan ahorros de costos garantizados. También se cobra un cargo por almacenamiento según el tiempo que se almacenan los datos.
Cuándo usar el almacenamiento en caché de contexto
El almacenamiento de contexto en caché es especialmente adecuado para situaciones en las que las solicitudes posteriores hacen referencia repetidamente a un contexto inicial sustancial.
Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de video, se pueden usar en solicitudes de instrucciones a la API de Gemini para generar resultados. Las solicitudes que usan la misma caché en la instrucción también incluyen texto único para cada instrucción. Por ejemplo, cada solicitud de instrucción que compone una conversación de chat puede incluir la misma caché de contexto que hace referencia a un video junto con el texto único que comprende cada turno en el chat.
Considera usar el almacenamiento en caché de contexto para casos de uso como los siguientes:
- Chatbots con instrucciones del sistema detalladas
- Análisis repetitivo de archivos de video extensos
- Consultas recurrentes en grandes conjuntos de documentos
- Análisis frecuente del repositorio de código o corrección de errores
Rentabilidad a través del almacenamiento en caché
El almacenamiento en caché del contexto es una función pagada diseñada para reducir los costos operativos generales. La facturación se basa en los siguientes factores:
- Cantidad de tokens almacenados en caché: Es la cantidad de tokens de entrada almacenados en caché, que se facturan a una tarifa reducida cuando se incluyen en instrucciones posteriores.
- Duración del almacenamiento: Es la cantidad de tiempo que se almacenan los tokens en caché, y se factura por hora. Los tokens almacenados en caché se borran cuando vence una caché de contexto.
- Otros factores: Se aplican otros cargos, como los de los tokens de entrada y salida no almacenados en caché.
La cantidad de tokens en la parte almacenada en caché de tu entrada se puede encontrar en el campo de metadatos de tu respuesta, en el campo cachedContentTokenCount
.
La compatibilidad con el almacenamiento en caché del contexto para la capacidad de procesamiento aprovisionada se encuentra en versión preliminar para el almacenamiento en caché predeterminado. El almacenamiento en caché del contexto con la API de Vertex AI no es compatible con el procesamiento aprovisionado. Consulta la guía de capacidad de procesamiento aprovisionada para obtener más detalles.
Modelos compatibles
Los siguientes modelos de Gemini admiten el almacenamiento en caché del contexto:
- Gemini 2.5 Flash-Lite
Versión preliminar - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Para obtener más información, consulta Versiones de modelos estables de Gemini disponibles. Ten en cuenta que la caché de contexto admite todos los tipos de MIME para los modelos compatibles.
Disponibilidad
La caché de contexto está disponible en las regiones donde está disponible la IA generativa en Vertex AI. Para obtener más información, consulta IA generativa en ubicaciones de Vertex AI.
Compatibilidad con los Controles del servicio de VPC
El almacenamiento en caché de contexto admite los Controles del servicio de VPC, lo que significa que tu caché no se puede filtrar fuera de tu perímetro de servicio. Si usas Cloud Storage para compilar tu caché, incluye tu bucket en el perímetro de servicio también para proteger el contenido de la caché.
Para obtener más información, consulta Controles del servicio de VPC con Vertex AI en la documentación de Vertex AI.
¿Qué sigue?
- Obtén más información sobre la API de Gemini.
- Obtén más información para usar instrucciones multimodales.