Cette page a été traduite par l'API Cloud Translation.

Informations sur les métriques gérées basées sur des rubriques

Cette page fournit la liste complète des métriques gérées basées sur des rubriques proposées par Gen AI Evaluation Service, que vous pouvez utiliser dans le client GenAI du SDK Vertex AI.

Pour en savoir plus sur l'évaluation axée sur les tests, consultez Définir vos métriques d'évaluation.

Présentation

Le service d'évaluation de l'IA générative propose une liste de métriques gérées basées sur des rubriques pour le framework d'évaluation axé sur les tests :

Pour les métriques avec des rubriques adaptatives, la plupart d'entre elles incluent à la fois le workflow de génération de rubriques pour chaque requête et la validation des rubriques. Vous pouvez les exécuter séparément si nécessaire. Pour en savoir plus, consultez Exécuter une évaluation.
Pour les métriques avec des rubriques statiques, aucune rubrique par requête n'est générée. Pour en savoir plus sur les résultats attendus, consultez Détails des métriques.

Chaque métrique gérée basée sur un barème possède un numéro de version. La métrique utilise la dernière version par défaut, mais vous pouvez l'épingler à une version spécifique si nécessaire :

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

Rétrocompatibilité

Pour les métriques proposées en tant que modèles de requêtes de métriques, vous pouvez toujours accéder aux métriques ponctuelles via le client GenAI dans le SDK Vertex AI en utilisant la même approche. Les métriques par paires ne sont pas compatibles avec le client GenAI dans le SDK Vertex AI. Toutefois, consultez Exécuter une évaluation pour comparer deux modèles dans la même évaluation.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

Détails des métriques gérées

Cette section liste les métriques gérées et fournit des informations telles que leur type, les entrées requises et la sortie attendue :

Qualité générale
Qualité du texte
Suivi des instructions
Ancrage
Sécurité
Qualité générale multitour
Qualité du texte multitour
Correspondance de la réponse finale de l'agent
Référence gratuite pour la réponse finale de l'agent

Qualité générale

Dernière version	`general_quality_v1`
Type	Rubriques adaptatives
Description	Métrique complète à rubriques adaptatives qui évalue la qualité globale de la réponse d'un modèle. Il génère et évalue automatiquement un large éventail de critères en fonction du contenu de la requête. Il s'agit du point de départ recommandé pour la plupart des évaluations.
Accéder au SDK	`types.RubricMetric.GENERAL_QUALITY`
Entrée	`prompt` `response` (Facultatif) `rubric_groups` Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat	`score` `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	6 appels à Gemini 2.5 Flash

Qualité du texte

Dernière version	`text_quality_v1`
Type	Rubriques adaptatives
Description	Métrique ciblée et adaptative qui évalue spécifiquement la qualité linguistique de la réponse. Il évalue des aspects tels que la fluidité, la cohérence et la grammaire.
Accéder au SDK	`types.RubricMetric.TEXT_QUALITY`
Entrée	`prompt` `response` (Facultatif) `rubric_groups` Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat	`score` `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	6 appels à Gemini 2.5 Flash

Suivi des instructions

Dernière version	`instruction_following_v1`
Type	Rubriques adaptatives
Description	Il s'agit d'une métrique de rubriques adaptatives ciblée qui mesure dans quelle mesure la réponse respecte les contraintes et instructions spécifiques fournies dans la requête.
Accéder au SDK	`types.RubricMetric.INSTRUCTION_FOLLOWING`
Entrée	`prompt` `response` (Facultatif) `rubric_groups` Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat	`score` (taux de réussite) `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	6 appels à Gemini 2.5 Flash

Surface de référence

Dernière version	`grounding_v1`
Type	Grilles statiques
Description	Métrique basée sur un score qui vérifie la factualité et la cohérence. Il vérifie que la réponse du modèle est ancrée dans le contexte.
Accéder au SDK	`types.RubricMetric.GROUNDING`
Entrée	`prompt` `response` `context`
Résultat	`score` `explanation` Le score est compris entre `0-1` et représente le taux de revendications étiquetées comme `supported` ou `no_rad` (ne nécessitant pas d'attributions factuelles, comme les salutations, les questions ou les clauses de non-responsabilité) par rapport à la requête saisie. L'explication contient des regroupements de phrases, de libellés, de raisonnements et d'extraits du contexte.
Nombre d'appels LLM	1 appel à Gemini 2.5 Flash

Sécurité

Dernière version	`safety_v1`
Type	Grilles statiques
Description	Métrique basée sur un score qui évalue si la réponse du modèle a enfreint une ou plusieurs des règles suivantes : Données permettant d'identifier personnellement les utilisateurs et données démographiques Incitation à la haine Contenu dangereux Harcèlement Caractère sexuel explicite
Accéder au SDK	`types.RubricMetric.SAFETY`
Entrée	`prompt` `response`
Résultat	`score` `explanation` Pour le score, `0` est risqué et `1` est sûr. Le champ d'explication inclut les règles enfreintes.
Nombre d'appels LLM	10 appels à Gemini 2.5 Flash

Qualité générale multitour

Dernière version	`multi_turn_general_quality_v1`
Type	Rubriques adaptatives
Description	Métrique de rubriques adaptatives qui évalue la qualité globale de la réponse d'un modèle dans le contexte d'un dialogue multitours.
Accéder au SDK	`types.RubricMetric.MULTI_TURN_GENERAL_QUALITY`
Entrée	`prompt` avec des conversations multitours `response` (Facultatif) `rubric_groups` Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat	`score` rubriques et verdicts correspondants. Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	6 appels à Gemini 2.5 Flash

Qualité du texte multitour

Dernière version	`multi_turn_text_quality_v1`
Type	Rubriques adaptatives
Description	Métrique de rubriques adaptatives qui évalue la qualité du texte de la réponse d'un modèle dans le contexte d'un dialogue multitours.
Accéder au SDK	`types.RubricMetric.TEXT_QUALITY`
Entrée	`prompt` avec des conversations multitours `response` (Facultatif) `rubric_groups` Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat	`score` `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	6 appels à Gemini 2.5 Flash

Correspondance de la réponse finale de l'agent

Dernière version	`final_response_match_v2`
Type	Grilles statiques
Description	Métrique qui évalue la qualité de la réponse finale d'un agent d'IA en la comparant à une réponse de référence fournie (vérité terrain).
Accéder au SDK	`types.RubricMetric.FINAL_RESPONSE_MATCH`
Entrée	`prompt` `response` `reference`
Résultat	Score 1 : Réponse valide qui correspond à la référence. 0 : réponse non valide qui ne correspond pas à la référence. Explication
Nombre d'appels LLM	5 appels à Gemini 2.5 Flash

Référence de la réponse finale de l'agent (sans frais)

Dernière version	`final_response_reference_free_v1`
Type	Rubriques adaptatives
Description	Métrique à rubriques adaptatives qui évalue la qualité de la réponse finale d'un agent d'IA sans avoir besoin d'une réponse de référence. Vous devez fournir des rubriques pour cette métrique, car elle n'est pas compatible avec les rubriques générées automatiquement.
Accéder au SDK	`types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE`
Entrée	`prompt` `response` `rubric_groups`
Résultat	`score` `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	5 appels à Gemini 2.5 Flash

Étapes suivantes

Préparez votre ensemble de données d'évaluation.