Obtén inferencias asíncronas, de alto rendimiento y rentables para tus necesidades de procesamiento de datos a gran escala con las funciones de predicción por lotes de Gemini. En esta guía se explica el valor de la predicción por lotes, cómo funciona, sus limitaciones y las prácticas recomendadas para obtener resultados óptimos.
¿Por qué usar la predicción por lotes?
En muchas situaciones reales, no necesitas una respuesta inmediata de un modelo de lenguaje. En su lugar, puede que tengas un gran conjunto de datos de peticiones que necesites procesar de forma eficiente y asequible. Es aquí donde destaca la predicción por lotes.
Estas son algunas de las principales ventajas:
- Rentabilidad: el procesamiento por lotes se ofrece con un descuento del 50% en comparación con la inferencia en tiempo real, lo que lo convierte en la opción ideal para tareas a gran escala que no son urgentes.
- Límites de frecuencia altos: procesa cientos de miles de solicitudes en un solo lote con un límite de frecuencia más alto que el de la API de Gemini en tiempo real.
- Flujo de trabajo simplificado: en lugar de gestionar una compleja canalización de solicitudes individuales en tiempo real, puedes enviar un único trabajo por lotes y obtener los resultados una vez que se haya completado el procesamiento. El servicio se encargará de validar el formato, paralelizar las solicitudes para que se procesen simultáneamente y volver a intentarlo automáticamente para conseguir un alto porcentaje de finalización en un plazo de 24 horas.
La predicción por lotes está optimizada para tareas de procesamiento a gran escala, como las siguientes:
- Generación de contenido: genera descripciones de productos, publicaciones en redes sociales u otro texto creativo en bloque.
- Anotación y clasificación de datos: clasifica reseñas de usuarios, categoriza documentos o realiza análisis de sentimiento en un gran corpus de texto.
- Análisis sin conexión: resume artículos, extrae información clave de informes o traduce documentos a gran escala.
Modelos de Gemini que admiten predicciones por lotes
Los siguientes modelos base y ajustados de Gemini admiten predicciones por lotes:
Cuotas y límites
Aunque la predicción por lotes es una función muy útil, es importante tener en cuenta las siguientes limitaciones.
- Quota no hay límites de cuota predefinidos en tu uso. En su lugar, el servicio de lote proporciona acceso a un gran conjunto de recursos compartidos que se asignan dinámicamente en función de la disponibilidad de recursos y la demanda en tiempo real de todos los clientes de ese modelo. Si hay más clientes activos y se supera nuestra capacidad, es posible que tus solicitudes por lotes se pongan en cola.
- Tiempo de cola: cuando nuestro servicio experimenta un tráfico elevado, tu trabajo por lotes se pondrá en cola para obtener capacidad. La tarea estará en la cola hasta 72 horas antes de que caduque.
- Límites de solicitudes: un solo trabajo por lotes puede incluir hasta 200.000 solicitudes. Si usas Cloud Storage como entrada, también hay un límite de tamaño de archivo de 1 GB.
- Tiempo de procesamiento: los trabajos por lotes se procesan de forma asíncrona y no están diseñados para aplicaciones en tiempo real. La mayoría de las tareas se completan en un plazo de 24 horas después de que empiecen a ejecutarse (sin contar el tiempo de espera en la cola). Transcurridas 24 horas, los trabajos incompletos se cancelarán y solo se te cobrarán las solicitudes completadas.
- Funciones no admitidas: la predicción por lotes no admite Context Caching, RAG ni endpoints globales.
Prácticas recomendadas
Para sacar el máximo partido a la predicción por lotes con Gemini, te recomendamos que sigas estas prácticas recomendadas:
- Combinar trabajos: para maximizar el rendimiento, combina trabajos más pequeños en un trabajo de mayor tamaño, dentro de los límites del sistema. Por ejemplo, si envías un trabajo por lotes con 200.000 solicitudes,obtendrás un mejor rendimiento que si envías 1000 trabajos con 200 solicitudes cada uno.
- Monitorizar el estado de la tarea: puedes monitorizar el progreso de la tarea mediante la API, el SDK o la interfaz de usuario. Para obtener más información, consulta Monitorizar el estado de los trabajos. Si un trabajo falla, consulta los mensajes de error para diagnosticar y solucionar el problema.
- Optimizar los costes: aprovecha los ahorros que ofrece el procesamiento por lotes para las tareas que no requieran una respuesta inmediata.
Siguientes pasos
- Crear un trabajo por lotes con Cloud Storage
- Crear un trabajo por lotes con BigQuery
- Consulta cómo ajustar un modelo de Gemini en Descripción general del ajuste de modelos de Gemini.
- Más información sobre la API de predicción por lotes