El servicio de evaluación de IA generativa en Vertex AI te permite evaluar cualquier modelo o aplicación generativa y comparar los resultados de la evaluación con tu propio criterio, según tus propios criterios de evaluación.
Si bien las tablas de clasificación y los informes ofrecen estadísticas sobre el rendimiento general del modelo, no revelan cómo un modelo maneja tus necesidades específicas. El servicio de evaluación de IA generativa te ayuda a definir tus propios criterios de evaluación, lo que garantiza una comprensión clara de qué tan bien se alinean los modelos y las aplicaciones de IA generativa con tu caso de uso único.
La evaluación es importante en cada paso del proceso de desarrollo de la IA generativa, incluida la selección de modelos, la ingeniería de instrucciones y la personalización de modelos. La evaluación de IA generativa está integrada en Vertex AI para ayudarte a iniciar y reutilizar evaluaciones según sea necesario.
Funciones de Gen AI Evaluation Service
El servicio de evaluación de IA generativa puede ayudarte con las siguientes tareas:
Selección de modelos: Elige el mejor modelo previamente entrenado para tu tarea en función de los resultados de las comparativas y su rendimiento en tus datos específicos.
Configuración de generación: Ajusta los parámetros del modelo (como la temperatura) para optimizar el resultado según tus necesidades.
Ingeniería de instrucciones: Crea instrucciones y plantillas de instrucciones eficaces para guiar al modelo hacia el comportamiento y las respuestas que prefieras.
Mejora y protege el ajuste fino: Ajusta un modelo para mejorar el rendimiento de tu caso de uso y, al mismo tiempo, evita sesgos o comportamientos no deseados.
Optimización de la RAG: Selecciona la arquitectura de generación mejorada por recuperación (RAG) más eficaz para mejorar el rendimiento de tu aplicación.
Migración: Evalúa y mejora el rendimiento de tu solución de IA de forma continua migrando a modelos más nuevos cuando proporcionen una ventaja clara para tu caso de uso específico.
Traducción (versión preliminar): Evalúa la calidad de las traducciones de tu modelo.
Proceso de evaluación
El servicio de evaluación de IA generativa te permite evaluar cualquier modelo o aplicación de IA generativa en función de tus criterios de evaluación. Para ello, sigue estos pasos:
Define las métricas de evaluación:
Aprende a adaptar las métricas basadas en modelos a tus criterios comerciales.
Evalúa un solo modelo (por puntos) o determina el ganador cuando comparas 2 modelos (por pares).
Incluye métricas basadas en el procesamiento para obtener estadísticas adicionales.
Prepara tu conjunto de datos de evaluación.
- Proporciona un conjunto de datos que refleje tu caso de uso específico.
-
Empieza de cero, usa una plantilla o adapta ejemplos existentes.
Define modelos candidatos y crea un
EvalTask
para volver a usar tu lógica de evaluación a través de Vertex AI.
Notebooks para casos de uso de evaluación
En la siguiente tabla, se enumeran los notebooks del SDK de Vertex AI para Python para varios casos de uso de evaluación de IA generativa:
Caso de uso | Descripción | Vínculos a notebooks |
---|---|---|
Evaluar modelos | Guía de inicio rápido: Introducción al SDK de Gen AI Evaluation Service | Comienza a usar el SDK de Gen AI Evaluation Service |
Evalúa y selecciona modelos de base propios (1P) para tu tarea. | Evalúa y selecciona modelos de base propios (1P) para tu tarea | |
Evalúa y selecciona la configuración del modelo de IA generativa: Ajusta la temperatura, el límite de tokens de salida, la configuración de seguridad y otros parámetros de configuración de generación de modelos de Gemini en una tarea de resumen y compara los resultados de la evaluación de diferentes parámetros de configuración de modelos en varias métricas. |
Compara diferentes parámetros de configuración de modelos para Gemini | |
Evalúa modelos de terceros en Model Garden de Vertex AI. En este notebook, se proporciona una guía integral para evaluar los modelos Gemini de Google y los modelos de lenguaje de terceros con el SDK de Gen AI Evaluation Service. Aprende a evaluar y comparar modelos de diferentes fuentes, incluidos modelos abiertos y cerrados, extremos de modelos y bibliotecas cliente de terceros con varias métricas y técnicas de evaluación. Adquiere experiencia práctica en la realización de experimentos controlados y el análisis del rendimiento de los modelos en una variedad de tareas. |
Usa el SDK de Gen AI Evaluation Service para evaluar modelos en Vertex AI Studio, Model Garden y Model Registry | |
Migra de PaLM al modelo de Gemini con el SDK de Gen AI Evaluation Service. En este notebook, se te guía para evaluar los modelos de base de PaLM y Gemini con varias métricas de evaluación para respaldar las decisiones sobre la migración de un modelo a otro. Visualizamos estas métricas para obtener estadísticas sobre las fortalezas y debilidades de cada modelo, lo que te ayuda a tomar una decisión fundamentada sobre cuál se alinea mejor con los requisitos específicos de tu caso de uso. |
Compara y migra de PaLM al modelo de Gemini | |
Evalúa los modelos de traducción. En este notebook, se muestra cómo usar el SDK de Vertex AI para el servicio de evaluación de IA generativa para medir la calidad de la traducción de las respuestas de tu modelo de lenguaje grande (LLM) con BLEU, MetricX y COMET. |
Evalúa un modelo de traducción | |
Evalúa las plantillas de instrucciones | Ingeniería y evaluación de instrucciones con el SDK de Gen AI Evaluation Service | Evalúa y optimiza el diseño de plantillas de mensajes para obtener mejores resultados |
Evalúa las aplicaciones de IA generativa | Evalúa el uso de herramientas y las capacidades de llamada a función del modelo de Gemini. | Evalúa el uso de herramientas de modelos de Gemini |
Evalúa las respuestas generadas a partir de la generación aumentada y de recuperación (RAG) para una tarea de búsqueda de respuestas con el SDK de Gen AI Evaluation Service. | Evalúa las respuestas generadas a partir de la generación aumentada de recuperación (RAG) | |
Evalúa los chatbots de LangChain con el servicio de evaluación de IA generativa de Vertex AI. En este notebook, se muestra cómo evaluar un chatbot conversacional de LangChain con el SDK de Gen AI Evaluation Service de Vertex AI. En ella, se abarca la preparación de datos, la configuración de cadenas de LangChain, la creación de métricas de evaluación personalizadas y el análisis de resultados. En el instructivo, se usa un chatbot de sugerencias de recetas como ejemplo y se muestra cómo mejorar su rendimiento iterando en el diseño de la instrucción. |
Evalúa LangChain | |
Personalización de métricas | Personaliza las métricas basadas en modelos y evalúa un modelo de IA generativa según tus criterios específicos con las siguientes funciones:
|
Cómo personalizar las métricas basadas en modelos para evaluar un modelo de IA generativa |
Evalúa los modelos de IA generativa con tu métrica personalizada definida de forma local y trae tu propio modelo de juez para realizar la evaluación de métricas basada en modelos. | Crea tu propio clasificador automático con una métrica personalizada | |
Define tus propias funciones de métricas personalizadas basadas en el procesamiento y úsalas para la evaluación con el SDK de Gen AI Evaluation Service. | Usa tu propia métrica personalizada basada en cálculos | |
Otros temas | Guía de migración de la versión preliminar a la versión GA del SDK de Gen AI Evaluation Service. En este instructivo, se explica el proceso de migración de la versión preliminar a la versión GA más reciente del SDK de Vertex AI para Python para Gen AI Evaluation Service. En la guía, también se muestra cómo usar el SDK de la versión GA para evaluar la generación aumentada de recuperación (RAG) y comparar dos modelos con la evaluación por pares. |
Guía de migración de la versión preliminar a la versión GA del SDK del servicio de evaluación de IA generativa |
Modelos y lenguajes compatibles
El servicio de evaluación de IA generativa de Vertex AI admite los modelos de base, los modelos de terceros y los modelos abiertos de Google. Puedes proporcionar predicciones generadas previamente directamente o generar automáticamente respuestas de modelos candidatos de las siguientes maneras:
Genera respuestas automáticamente para los modelos de base de Google (como Gemini 1.5 Pro) y cualquier modelo implementado en Vertex AI Model Registry.
Integrar con APIs de generación de texto del SDK de otros modelos abiertos y de terceros
Une los extremos de modelos de otros proveedores con el SDK de Vertex AI.
En el caso de las métricas basadas en modelos de Gemini, el servicio de evaluación de IA generativa admite todos los idiomas de entrada que admite Gemini 1.5 Pro. Sin embargo, la calidad de las evaluaciones de las entradas que no están en inglés puede no ser tan alta como la de las entradas en inglés.
El servicio de evaluación de IA generativa admite los siguientes idiomas para las métricas de traducción basadas en modelos:
MetricX
Idiomas admitidos para MetricX: Afrikaans, albanés, amhárico, árabe, armenio, azerbaiyano, vasco, bielorruso, bengalí, búlgaro, birmano, catalán, cebuano, chichewa, chino, corso, checo, danés, holandés, inglés, esperanto, estonio, filipino, finés, francés, gallego, georgiano, alemán, griego, gujarati, criollo haitiano, hausa, hawaiano, hebreo, hindi, hmong, húngaro, islandés, igbo, indonesio, irlandés, italiano, japonés, javanés, kannada, kazajo, khmer, coreano, kurdo, kirguís, lao, latín, letón, lituano, luxemburgués, macedonio, malgache, malayo, malayalam, maltés, maorí, marathi, mongol, nepalí, noruego, pastún, persa,, portugués, punjabi, rumano, ruso, samoano, gaélico escocés, serbio, shona, sindhi, singalés, eslovaco, esloveno, somalí, sotho, español, sundanés, swahili, sueco, tayiko, tamil, telugu, tailandés, turco, ucraniano, urdu, uzbeko, vietnamita, galés, frisón occidental, xhosa, yiddish, yoruba, zulú.
COMET
Idiomas admitidos para COMET: Afrikaans, albanés, amárico, árabe, armenio, assamese, azerbaiyano, vasco, bielorruso, bengalí, bengalí romanizado, bosnio, bretón, búlgaro, birmano, catalán, chino (simplificado), chino (tradicional), croata, checo, danés, neerlandés, inglés, esperanto, estonio, filipino, finés, francés, gallego, georgiano, alemán, griego, gujarati, hausa, hebreo, hindi, hindi romanizado, húngaro, islandés, indonesio, irlandés, italiano, japonés, javanés, kannada, kazajo, khmer, coreano, kurdo (kurmanji), kirguís, lao, latín, letón, lituano, macedonio, malgache, malayo, malayalam, marathi, mongol, nepalí, noruego, oriya, oromo, pastún, persa,, portugués, punjabi, rumano, ruso, sánscrito, escocés, gaélico, serbio, sindhi, singalés, eslovaco, esloveno, somalí, español, sundanés, swahili, sueco, tamil, tamil romanizado, telugu, telugu romanizado, tailandés, turco, ucraniano, urdu, urdu romanizado, uigur, uzbeko, vietnamita, galés, occidental, frisón, xhosa y yiddish.
¿Qué sigue?
Prueba la guía de inicio rápido de evaluación.
Obtén información para ajustar un modelo de base.