Esta página se ha traducido con Cloud Translation API.

Predicción por lotes con Gemini

Obtén predicciones asíncronas, de alto rendimiento y rentables para tus necesidades de procesamiento de datos a gran escala con las funciones de predicción por lotes de Gemini. En esta guía se explica el valor de la predicción por lotes, cómo funciona, sus limitaciones y las prácticas recomendadas para obtener resultados óptimos.

¿Por qué usar la predicción por lotes?

En muchas situaciones reales, no necesitas una respuesta inmediata de un modelo de lenguaje. En su lugar, puede que tengas un gran conjunto de datos de peticiones que necesites procesar de forma eficiente y asequible. Es aquí donde destaca la predicción por lotes.

Estas son algunas de las principales ventajas:

Rentabilidad: el procesamiento por lotes se ofrece con un descuento del 50% en comparación con la predicción en tiempo real, por lo que es ideal para tareas a gran escala que no sean urgentes. El almacenamiento en caché implícito está habilitado de forma predeterminada para Gemini 2.5 Pro, Gemini 2.5 Flash y Gemini 2.5 Flash-Lite. El almacenamiento en caché implícito ofrece un descuento del 75% en los tokens almacenados en caché en comparación con los tokens de entrada estándar. Sin embargo, los descuentos por caché y por lote no se acumulan. El descuento del 75% por acierto de caché tiene prioridad sobre el descuento por lote.
Límites de frecuencia altos: procesa cientos de miles de solicitudes en un solo lote con un límite de frecuencia más alto que el de la API Gemini en tiempo real.
Flujo de trabajo simplificado: en lugar de gestionar una compleja canalización de solicitudes individuales en tiempo real, puedes enviar un único trabajo por lotes y obtener los resultados una vez que se haya completado el procesamiento. El servicio se encargará de validar el formato, paralelizar las solicitudes para que se procesen simultáneamente y volver a intentarlo automáticamente para conseguir un alto porcentaje de finalización en un plazo de 24 horas.

La predicción por lotes está optimizada para tareas de procesamiento a gran escala, como las siguientes:

Generación de contenido: genera descripciones de productos, publicaciones en redes sociales u otro texto creativo en bloque.
Anotación y clasificación de datos: clasifica reseñas de usuarios, categoriza documentos o realiza análisis de sentimiento en un gran corpus de texto.
Análisis sin conexión: resume artículos, extrae información clave de informes o traduce documentos a gran escala.

Modelos de Gemini que admiten predicciones por lotes

Los siguientes modelos base y ajustados de Gemini admiten predicciones por lotes:

Compatibilidad con modelos de endpoint global

La predicción por lotes admite el uso del endpoint global para los modelos de base de Gemini. No admite el endpoint global de los modelos de Gemini ajustados.

La vista previa pública de la compatibilidad con la predicción por lotes para los endpoints globales no admite tablas de BigQuery como entrada ni como salida.

El endpoint global ayuda a mejorar la disponibilidad general al servir tus solicitudes desde cualquier región compatible con el modelo que estés usando. Ten en cuenta que no cumple los requisitos de residencia de datos. Si tienes requisitos de residencia de datos, usa los endpoints regionales.

Cuotas y límites

Aunque la predicción por lotes es una función muy útil, es importante tener en cuenta las siguientes limitaciones.

Quota no hay límites de cuota predefinidos para tu uso. En su lugar, el servicio de lote proporciona acceso a un gran conjunto de recursos compartidos, asignados dinámicamente en función de la disponibilidad de recursos y la demanda en tiempo real de todos los clientes de ese modelo. Si hay más clientes activos y se supera nuestra capacidad, es posible que tus solicitudes por lotes se pongan en cola.
Tiempo de cola: cuando nuestro servicio experimenta un tráfico elevado, tu trabajo por lotes se pondrá en cola para obtener capacidad. La tarea estará en la cola hasta 72 horas antes de que caduque.
Límites de solicitudes: un solo trabajo por lotes puede incluir hasta 200.000 solicitudes. Si usas Cloud Storage como entrada, también hay un límite de tamaño de archivo de 1 GB.
Tiempo de procesamiento: los trabajos por lotes se procesan de forma asíncrona y no están diseñados para aplicaciones en tiempo real. La mayoría de las tareas se completan en un plazo de 24 horas después de que empiecen a ejecutarse (sin contar el tiempo de espera en la cola). Transcurridas 24 horas, los trabajos incompletos se cancelarán y solo se te cobrarán las solicitudes completadas.
Funciones no admitidas: la predicción por lotes no admite el almacenamiento en caché explícito ni la RAG. Gemini 2.0 Flash y Gemini 2.0 Flash-Lite no admiten el almacenamiento en caché implícito de predicciones por lotes.

Prácticas recomendadas

Para sacar el máximo partido a la predicción por lotes con Gemini, te recomendamos que sigas estas prácticas recomendadas:

Combinar trabajos: para maximizar el rendimiento, combina trabajos más pequeños en un trabajo de mayor tamaño, dentro de los límites del sistema. Por ejemplo, si envías un trabajo por lotes con 200.000 solicitudes,obtendrás un mejor rendimiento que si envías 1000 trabajos con 200 solicitudes cada uno.
Monitorizar el estado de la tarea: puedes monitorizar el progreso de la tarea mediante la API, el SDK o la interfaz de usuario. Para obtener más información, consulta Monitorizar el estado de los trabajos. Si un trabajo falla, consulta los mensajes de error para diagnosticar y solucionar el problema.
Optimizar los costes: aprovecha los ahorros que ofrece el procesamiento por lotes para las tareas que no requieran una respuesta inmediata.

Siguientes pasos

Crear un trabajo por lotes con Cloud Storage
Crear un trabajo por lotes con BigQuery
Consulta cómo ajustar un modelo de Gemini en Descripción general del ajuste de modelos de Gemini.
Más información sobre la API de predicción por lotes