Cette page fournit la liste complète des métriques gérées basées sur des rubriques proposées par Gen AI Evaluation Service, que vous pouvez utiliser dans le client GenAI du SDK Vertex AI.
Pour en savoir plus sur l'évaluation axée sur les tests, consultez Définir vos métriques d'évaluation.
Présentation
Le service d'évaluation de l'IA générative propose une liste de métriques gérées basées sur des rubriques pour le framework d'évaluation axé sur les tests :
Pour les métriques avec des rubriques adaptatives, la plupart d'entre elles incluent à la fois le workflow de génération de rubriques pour chaque requête et la validation des rubriques. Vous pouvez les exécuter séparément si nécessaire. Pour en savoir plus, consultez Exécuter une évaluation.
Pour les métriques avec des rubriques statiques, aucune rubrique par requête n'est générée. Pour en savoir plus sur les résultats attendus, consultez Détails des métriques.
Chaque métrique gérée basée sur un barème possède un numéro de version. La métrique utilise la dernière version par défaut, mais vous pouvez l'épingler à une version spécifique si nécessaire :
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
Rétrocompatibilité
Pour les métriques proposées en tant que modèles de requêtes de métriques, vous pouvez toujours accéder aux métriques ponctuelles via le client GenAI dans le SDK Vertex AI en utilisant la même approche. Les métriques par paires ne sont pas compatibles avec le client GenAI dans le SDK Vertex AI. Toutefois, consultez Exécuter une évaluation pour comparer deux modèles dans la même évaluation.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
Détails des métriques gérées
Cette section liste les métriques gérées et fournit des informations telles que leur type, les entrées requises et la sortie attendue :
- Qualité générale
- Qualité du texte
- Suivi des instructions
- Ancrage
- Sécurité
- Qualité générale multitour
- Qualité du texte multitour
- Correspondance de la réponse finale de l'agent
- Référence gratuite pour la réponse finale de l'agent
Qualité générale
Dernière version | general_quality_v1 |
Type | Rubriques adaptatives |
Description | Métrique complète à rubriques adaptatives qui évalue la qualité globale de la réponse d'un modèle. Il génère et évalue automatiquement un large éventail de critères en fonction du contenu de la requête. Il s'agit du point de départ recommandé pour la plupart des évaluations. |
Accéder au SDK | types.RubricMetric.GENERAL_QUALITY |
Entrée |
|
Résultat |
|
Nombre d'appels LLM | 6 appels à Gemini 2.5 Flash |
Qualité du texte
Dernière version | text_quality_v1 |
Type | Rubriques adaptatives |
Description | Métrique de rubriques adaptatives ciblée qui évalue spécifiquement la qualité linguistique de la réponse. Il évalue des aspects tels que la fluidité, la cohérence et la grammaire. |
Accéder au SDK | types.RubricMetric.TEXT_QUALITY |
Entrée |
|
Résultat |
|
Nombre d'appels LLM | 6 appels à Gemini 2.5 Flash |
Suivi des instructions
Dernière version | instruction_following_v1 |
Type | Rubriques adaptatives |
Description | Il s'agit d'une métrique de rubriques adaptatives ciblée qui mesure dans quelle mesure la réponse respecte les contraintes et instructions spécifiques fournies dans la requête. |
Accéder au SDK | types.RubricMetric.INSTRUCTION_FOLLOWING |
Entrée |
|
Résultat |
|
Nombre d'appels LLM | 6 appels à Gemini 2.5 Flash |
Surface de référence
Dernière version | grounding_v1 |
Type | Grilles statiques |
Description | Métrique basée sur un score qui vérifie la factualité et la cohérence. Il vérifie que la réponse du modèle est ancrée dans le contexte. |
Accéder au SDK | types.RubricMetric.GROUNDING |
Entrée |
|
Résultat |
0-1 et représente le taux de revendications étiquetées comme supported ou no_rad (ne nécessitant pas d'attributions factuelles, comme les salutations, les questions ou les clauses de non-responsabilité) par rapport à la requête saisie.
L'explication contient des regroupements de phrases, de libellés, de raisonnements et d'extraits du contexte. |
Nombre d'appels LLM | 1 appel à Gemini 2.5 Flash |
Sécurité
Dernière version | safety_v1 |
Type | Grilles statiques |
Description |
Métrique basée sur un score qui évalue si la réponse du modèle a enfreint une ou plusieurs des règles suivantes :
|
Accéder au SDK | types.RubricMetric.SAFETY |
Entrée |
|
Résultat |
0 est risqué et 1 est sûr.
Le champ d'explication inclut les règles enfreintes. |
Nombre d'appels LLM | 10 appels à Gemini 2.5 Flash |
Qualité générale multitour
Dernière version | multi_turn_general_quality_v1 |
Type | Rubriques adaptatives |
Description | Métrique de rubriques adaptatives qui évalue la qualité globale de la réponse d'un modèle dans le contexte d'un dialogue multitours. |
Accéder au SDK | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
Entrée |
|
Résultat |
|
Nombre d'appels LLM | 6 appels à Gemini 2.5 Flash |
Qualité du texte multitour
Dernière version | multi_turn_text_quality_v1 |
Type | Rubriques adaptatives |
Description | Métrique de rubriques adaptatives qui évalue la qualité du texte de la réponse d'un modèle dans le contexte d'un dialogue multitours. |
Accéder au SDK | types.RubricMetric.TEXT_QUALITY |
Entrée |
|
Résultat |
|
Nombre d'appels LLM | 6 appels à Gemini 2.5 Flash |
Correspondance de la réponse finale de l'agent
Dernière version | final_response_match_v2 |
Type | Grilles statiques |
Description | Métrique qui évalue la qualité de la réponse finale d'un agent d'IA en la comparant à une réponse de référence fournie (vérité terrain). |
Accéder au SDK | types.RubricMetric.FINAL_RESPONSE_MATCH |
Entrée |
|
Résultat |
Score
|
Nombre d'appels LLM | 5 appels à Gemini 2.5 Flash |
Référence de la réponse finale de l'agent (sans frais)
Dernière version | final_response_reference_free_v1 |
Type | Rubriques adaptatives |
Description | Métrique à rubriques adaptatives qui évalue la qualité de la réponse finale d'un agent d'IA sans avoir besoin d'une réponse de référence.
Vous devez fournir des rubriques pour cette métrique, car elle n'est pas compatible avec les rubriques générées automatiquement. |
Accéder au SDK | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
Entrée |
|
Résultat |
|
Nombre d'appels LLM | 5 appels à Gemini 2.5 Flash |