En esta página se ofrece una lista completa de las métricas gestionadas basadas en rúbricas que ofrece el servicio de evaluación de IA generativa, que puedes usar en el cliente de GenAI del SDK de Vertex AI.
Para obtener más información sobre la evaluación basada en pruebas, consulta Define tus métricas de evaluación.
Información general
El servicio de evaluación de la IA generativa ofrece una lista de métricas gestionadas basadas en rúbricas para el marco de evaluación basado en pruebas:
En el caso de las métricas con rúbricas adaptativas, la mayoría incluyen tanto el flujo de trabajo para generar rúbricas para cada petición como la validación de rúbricas. Puedes ejecutarlas por separado si es necesario. Consulta Realizar una evaluación para obtener más información.
En el caso de las métricas con rúbricas estáticas, no se generan rúbricas por petición. Para obtener más información sobre los resultados previstos, consulta Detalles de las métricas.
Cada métrica gestionada basada en rúbricas tiene un número de versión. La métrica usa la versión más reciente de forma predeterminada, pero puedes fijar una versión específica si lo necesitas:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
Retrocompatibilidad
En el caso de las métricas que se ofrecen como plantillas de peticiones de métricas, puedes seguir accediendo a las métricas puntuales a través del cliente de IA generativa en el SDK de Vertex AI con el mismo método. El SDK de GenAI Client en Vertex AI no admite métricas por pares, pero puedes consultar Realizar una evaluación para comparar dos modelos en la misma evaluación.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
Detalles de las métricas gestionadas
En esta sección se enumeran las métricas gestionadas con detalles como su tipo, las entradas obligatorias y la salida esperada:
- Calidad general
- Calidad del texto
- Seguir instrucciones
- Fundamentación
- Seguridad
- Calidad general de conversaciones de varios turnos
- Calidad del texto en conversaciones de varias interacciones
- Coincidencia de la respuesta final del agente
- Referencia de la respuesta final del agente gratuita
Calidad general
Última versión | general_quality_v1 |
Tipo | Rúbricas adaptativas |
Descripción | Métrica de rúbricas adaptativas completa que evalúa la calidad general de la respuesta de un modelo. Genera y evalúa automáticamente una amplia gama de criterios en función del contenido de la petición. Este es el punto de partida recomendado para la mayoría de las evaluaciones. |
Cómo acceder en el SDK | types.RubricMetric.GENERAL_QUALITY |
Entrada |
|
Salida |
|
Número de llamadas a LLMs | 6 llamadas a Gemini 2.5 Flash |
Calidad del texto
Última versión | text_quality_v1 |
Tipo | Rúbricas adaptativas |
Descripción | Una métrica de rúbricas adaptativas segmentada que evalúa específicamente la calidad lingüística de la respuesta. Evalúa aspectos como la fluidez, la coherencia y la gramática. |
Cómo acceder en el SDK | types.RubricMetric.TEXT_QUALITY |
Entrada |
|
Salida |
|
Número de llamadas a LLMs | 6 llamadas a Gemini 2.5 Flash |
Seguir instrucciones
Última versión | instruction_following_v1 |
Tipo | Rúbricas adaptativas |
Descripción | Métrica de rúbricas adaptativas específicas que mide el grado de cumplimiento de la respuesta con respecto a las restricciones e instrucciones específicas proporcionadas en la petición. |
Cómo acceder en el SDK | types.RubricMetric.INSTRUCTION_FOLLOWING |
Entrada |
|
Salida |
|
Número de llamadas a LLMs | 6 llamadas a Gemini 2.5 Flash |
Fundamentación
Última versión | grounding_v1 |
Tipo | Rúbricas estáticas |
Descripción | Métrica basada en puntuación que comprueba la veracidad y la coherencia. Verifica que la respuesta del modelo se basa en el contexto. |
Cómo acceder en el SDK | types.RubricMetric.GROUNDING |
Entrada |
|
Salida |
0-1 y representa la proporción de reclamaciones etiquetadas como supported o no_rad (que no requieren atribuciones de hechos, como saludos, preguntas o avisos) en la petición.
La explicación contiene agrupaciones de frases, etiquetas, razonamientos y fragmentos del contexto. |
Número de llamadas a LLMs | 1 llamada a Gemini 2.5 Flash |
Seguridad
Última versión | safety_v1 |
Tipo | Rúbricas estáticas |
Descripción |
Métrica basada en puntuaciones que evalúa si la respuesta del modelo ha infringido una o varias de las siguientes políticas:
|
Cómo acceder en el SDK | types.RubricMetric.SAFETY |
Entrada |
|
Salida |
0 no es seguro y 1 sí lo es.
En el campo de explicación se incluyen las políticas infringidas. |
Número de llamadas a LLMs | 10 llamadas a Gemini 2.5 Flash |
Calidad general de las conversaciones de varios turnos
Última versión | multi_turn_general_quality_v1 |
Tipo | Rúbricas adaptativas |
Descripción | Métrica de rúbricas adaptativas que evalúa la calidad general de la respuesta de un modelo en el contexto de un diálogo de varias interacciones. |
Cómo acceder en el SDK | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
Entrada |
|
Salida |
|
Número de llamadas a LLMs | 6 llamadas a Gemini 2.5 Flash |
Calidad del texto en conversaciones de varios turnos
Última versión | multi_turn_text_quality_v1 |
Tipo | Rúbricas adaptativas |
Descripción | Métrica de rúbricas adaptativas que evalúa la calidad del texto de la respuesta de un modelo en el contexto de un diálogo de varias interacciones. |
Cómo acceder en el SDK | types.RubricMetric.TEXT_QUALITY |
Entrada |
|
Salida |
|
Número de llamadas a LLMs | 6 llamadas a Gemini 2.5 Flash |
Coincidencia con la respuesta final del agente
Última versión | final_response_match_v2 |
Tipo | Rúbricas estáticas |
Descripción | Métrica que evalúa la calidad de la respuesta final de un agente de IA comparándola con una respuesta de referencia proporcionada (validada en el terreno). |
Cómo acceder en el SDK | types.RubricMetric.FINAL_RESPONSE_MATCH |
Entrada |
|
Salida |
Puntuación
|
Número de llamadas a LLMs | 5 llamadas a Gemini 2.5 Flash |
Referencia de respuesta final del agente (gratis)
Última versión | final_response_reference_free_v1 |
Tipo | Rúbricas adaptativas |
Descripción | Una métrica de rúbricas adaptativas que evalúa la calidad de la respuesta final de un agente de IA sin necesidad de una respuesta de referencia.
Debes proporcionar rúbricas para esta métrica, ya que no admite rúbricas generadas automáticamente. |
Cómo acceder en el SDK | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
Entrada |
|
Salida |
|
Número de llamadas a LLMs | 5 llamadas a Gemini 2.5 Flash |