El ajuste fino supervisado es una buena opción cuando tienes una tarea bien definida con datos etiquetados disponibles. Es especialmente eficaz en aplicaciones específicas de un dominio en las que el lenguaje o el contenido difieren significativamente de los datos con los que se entrenó originalmente el modelo grande. Puedes ajustar los tipos de datos texto, imagen, audio y documento.
El ajuste fino supervisado adapta el comportamiento del modelo con un conjunto de datos etiquetado. Este proceso ajusta las ponderaciones del modelo para minimizar la diferencia entre sus predicciones y las etiquetas reales. Por ejemplo, puede mejorar el rendimiento del modelo en los siguientes tipos de tareas:
- Clasificación
- Creación de resúmenes
- Búsqueda de respuestas extractivas
- Chat
Para ver un análisis de los principales casos prácticos de ajuste, consulta la entrada de blog Cientos de organizaciones están ajustando modelos de Gemini. Estos son sus casos prácticos favoritos.
Para obtener más información, consulta Cuándo usar el ajuste fino supervisado en Gemini.
Modelos admitidos
Los siguientes modelos de Gemini admiten el ajuste fino supervisado:
En los modelos que admiten la reflexión, te recomendamos que desactives el presupuesto de reflexión o que le asignes el valor más bajo. Esto puede mejorar el rendimiento y reducir los costes de las tareas optimizadas. Durante el ajuste fino supervisado, el modelo aprende de los datos de entrenamiento y omite el proceso de razonamiento. Por lo tanto, el modelo ajustado resultante puede realizar tareas ajustadas de forma eficaz sin un presupuesto de pensamiento.
Limitaciones
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite
Especificaciones | Valor |
---|---|
Número máximo de tokens de entrenamiento de entrada y salida | 131.072 |
Número máximo de tokens de servicio de entrada y salida | Igual que el modelo base de Gemini |
Tamaño máximo del conjunto de datos de validación | 5000 ejemplos |
Tamaño máximo del archivo del conjunto de datos de entrenamiento | 1 GB para JSONL |
Tamaño máximo del conjunto de datos de entrenamiento | 1 millón de ejemplos de solo texto o 300.000 ejemplos multimodales |
Tamaño del adaptador | Los valores admitidos son 1, 2, 4, 8 y 16. |
Gemini 2.5 Pro
Especificaciones | Valor |
---|---|
Número máximo de tokens de entrenamiento de entrada y salida | 131.072 |
Número máximo de tokens de servicio de entrada y salida | Igual que el modelo base de Gemini |
Tamaño máximo del conjunto de datos de validación | 5000 ejemplos |
Tamaño máximo del archivo del conjunto de datos de entrenamiento | 1 GB para JSONL |
Tamaño máximo del conjunto de datos de entrenamiento | 1 millón de ejemplos de solo texto o 300.000 ejemplos multimodales |
Tamaño del adaptador | Los valores admitidos son 1, 2, 4 y 8. |
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
Especificaciones | Valor |
---|---|
Número máximo de tokens de entrenamiento de entrada y salida | 131.072 |
Número máximo de tokens de servicio de entrada y salida | Igual que el modelo base de Gemini |
Tamaño máximo del conjunto de datos de validación | 5000 ejemplos |
Tamaño máximo del archivo del conjunto de datos de entrenamiento | 1 GB para JSONL |
Tamaño máximo del conjunto de datos de entrenamiento | 1 millón de ejemplos de solo texto o 300.000 ejemplos multimodales |
Tamaño del adaptador | Los valores admitidos son 1, 2, 4 y 8. |
Problemas conocidos
- Aplicar la generación controlada al enviar solicitudes de inferencia a modelos de Gemini ajustados puede provocar una disminución de la calidad del modelo debido a una desalineación de los datos durante el ajuste y el tiempo de inferencia. Durante el ajuste, no se aplica la generación controlada, por lo que el modelo ajustado no puede gestionar bien la generación controlada en el momento de la inferencia. El ajuste fino supervisado personaliza el modelo de forma eficaz para generar resultados estructurados. Por lo tanto, no es necesario aplicar la generación controlada al hacer solicitudes de inferencia en modelos ajustados.
Casos prácticos de uso del ajuste fino supervisado
Los modelos fundacionales funcionan bien cuando la salida o la tarea esperadas se pueden definir de forma clara y concisa en una petición, y la petición produce de forma coherente la salida esperada. Si quieres que un modelo aprenda algo específico que se desvíe de los patrones generales, puedes plantearte ajustarlo. Por ejemplo, puedes usar el ajuste de modelos para enseñar al modelo lo siguiente:
- Estructuras o formatos específicos para generar resultados.
- Comportamientos específicos, como cuándo proporcionar un resultado conciso o detallado.
- Salidas personalizadas específicas para tipos de entradas concretos.
Los siguientes ejemplos son casos prácticos que resultan difíciles de captar solo con instrucciones de peticiones:
Clasificación: la respuesta esperada es una palabra o frase específica.
Ajustar el modelo puede ayudar a evitar que genere respuestas detalladas.
Resumen: el resumen sigue un formato específico. Por ejemplo, puede que tengas que eliminar información personal identificable (IPI) de un resumen de chat.
Es difícil describir este formato, en el que se sustituyen los nombres de los interlocutores por
#Person1
y#Person2
, y es posible que el modelo fundacional no genere de forma natural una respuesta de este tipo.Respuesta a preguntas extractivas: la pregunta es sobre un contexto y la respuesta es una subcadena del contexto.
La respuesta "Último Máximo Glacial" es una frase específica del contexto.
Chat: debes personalizar la respuesta del modelo para que siga un rol, un personaje o una personalidad.
También puedes ajustar un modelo en las siguientes situaciones:
- Las peticiones no producen los resultados esperados con la suficiente coherencia.
- La tarea es demasiado complicada para definirla en una petición. Por ejemplo, quieres que el modelo clone un comportamiento que es difícil de articular en una petición.
- Tienes intuiciones complejas sobre una tarea que son difíciles de formalizar en una petición.
- Quieres reducir la longitud del contexto eliminando los ejemplos de few-shot.
Configurar una región de una tarea de ajuste
Los datos de los usuarios, como el conjunto de datos transformado y el modelo optimizado, se almacenan en la región de la tarea de optimización. Durante la optimización, los cálculos se pueden derivar a otras regiones de US
o EU
para los aceleradores disponibles. La descarga es transparente para los usuarios.
Si usas el SDK de Vertex AI, puedes especificar la región al inicializarlo. Por ejemplo:
import vertexai vertexai.init(project='myproject', location='us-central1')
Si creas un trabajo de ajuste fino supervisado enviando una solicitud POST mediante el método
tuningJobs.create
, debes usar la URL para especificar la región en la que se ejecuta el trabajo de ajuste. Por ejemplo, en la siguiente URL, especifica una región sustituyendo ambas instancias deTUNING_JOB_REGION
por la región en la que se ejecuta el trabajo.https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
Si usas la Google Cloud consola, puedes seleccionar el nombre de la región en el campo desplegable Región de la página Detalles del modelo. Esta es la misma página en la que seleccionas el modelo base y el nombre del modelo ajustado.
Evaluar modelos optimizados
Puedes evaluar los modelos ajustados de las siguientes formas:
Métricas de ajuste y validación: evalúa el modelo ajustado con las métricas de ajuste y validación una vez que se haya completado el trabajo de ajuste.
Evaluación integrada con el servicio de evaluación de IA generativa (vista previa): configura los trabajos de ajuste para que ejecuten automáticamente evaluaciones con el servicio de evaluación de IA generativa durante el ajuste. Solo se admiten el SDK de IA generativa de Google y la API REST para la integración del ajuste con el servicio de evaluación de IA generativa.
Cuota
La cuota se aplica al número de tareas de ajuste simultáneas. Todos los proyectos tienen una cuota predeterminada para ejecutar al menos un trabajo de ajuste. Se trata de una cuota global que se comparte entre todas las regiones disponibles y los modelos admitidos. Si quiere ejecutar más trabajos simultáneamente, debe solicitar cuota adicional para Global concurrent tuning jobs
.
Si configuras el servicio de evaluación de IA generativa para que ejecute evaluaciones automáticamente durante el ajuste, consulta las cuotas del servicio de evaluación de IA generativa.
Precios
Los precios del ajuste fino supervisado de Gemini se pueden consultar en la página de precios de Vertex AI.
El número de tokens de entrenamiento se calcula multiplicando el número de tokens de tu conjunto de datos de entrenamiento por el número de épocas. Después del ajuste, se siguen aplicando los costes de inferencia (solicitud de predicción) del modelo ajustado. Los precios de inferencia son los mismos para cada versión estable de Gemini. Para obtener más información, consulta las versiones estables disponibles del modelo Gemini.
Si configuras el servicio de evaluación de IA generativa para que se ejecute automáticamente durante el ajuste, las evaluaciones se cobrarán como trabajos de predicción por lotes. Para obtener más información, consulta los precios.
Siguientes pasos
- Prepara un conjunto de datos de ajuste fino supervisado.
- Consulta información sobre cómo implementar un modelo de Gemini ajustado.