Informations sur les métriques gérées basées sur des rubriques

Cette page fournit la liste complète des métriques gérées basées sur des rubriques proposées par Gen AI Evaluation Service, que vous pouvez utiliser dans le client GenAI du SDK Vertex AI.

Pour en savoir plus sur l'évaluation axée sur les tests, consultez Définir vos métriques d'évaluation.

Présentation

Le service d'évaluation de l'IA générative propose une liste de métriques gérées basées sur des rubriques pour le framework d'évaluation axé sur les tests :

  • Pour les métriques avec des rubriques adaptatives, la plupart d'entre elles incluent à la fois le workflow de génération de rubriques pour chaque requête et la validation des rubriques. Vous pouvez les exécuter séparément si nécessaire. Pour en savoir plus, consultez Exécuter une évaluation.

  • Pour les métriques avec des rubriques statiques, aucune rubrique par requête n'est générée. Pour en savoir plus sur les résultats attendus, consultez Détails des métriques.

Chaque métrique gérée basée sur un barème possède un numéro de version. La métrique utilise la dernière version par défaut, mais vous pouvez l'épingler à une version spécifique si nécessaire :

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

Rétrocompatibilité

Pour les métriques proposées en tant que modèles de requêtes de métriques, vous pouvez toujours accéder aux métriques ponctuelles via le client GenAI dans le SDK Vertex AI en utilisant la même approche. Les métriques par paires ne sont pas compatibles avec le client GenAI dans le SDK Vertex AI. Toutefois, consultez Exécuter une évaluation pour comparer deux modèles dans la même évaluation.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

Détails des métriques gérées

Cette section liste les métriques gérées et fournit des informations telles que leur type, les entrées requises et la sortie attendue :

Qualité générale

Dernière version general_quality_v1
Type Rubriques adaptatives
Description Métrique complète à rubriques adaptatives qui évalue la qualité globale de la réponse d'un modèle. Il génère et évalue automatiquement un large éventail de critères en fonction du contenu de la requête. Il s'agit du point de départ recommandé pour la plupart des évaluations.
Accéder au SDK types.RubricMetric.GENERAL_QUALITY
Entrée
  • prompt
  • response
  • (Facultatif) rubric_groups
Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat
  • score
  • rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM 6 appels à Gemini 2.5 Flash

Qualité du texte

Dernière version text_quality_v1
Type Rubriques adaptatives
Description Métrique de rubriques adaptatives ciblée qui évalue spécifiquement la qualité linguistique de la réponse. Il évalue des aspects tels que la fluidité, la cohérence et la grammaire.
Accéder au SDK types.RubricMetric.TEXT_QUALITY
Entrée
  • prompt
  • response
  • (Facultatif) rubric_groups
Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat
  • score
  • rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM 6 appels à Gemini 2.5 Flash

Suivi des instructions

Dernière version instruction_following_v1
Type Rubriques adaptatives
Description Il s'agit d'une métrique de rubriques adaptatives ciblée qui mesure dans quelle mesure la réponse respecte les contraintes et instructions spécifiques fournies dans la requête.
Accéder au SDK types.RubricMetric.INSTRUCTION_FOLLOWING
Entrée
  • prompt
  • response
  • (Facultatif) rubric_groups
Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat
  • score (taux de réussite)
  • rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM 6 appels à Gemini 2.5 Flash

Surface de référence

Dernière version grounding_v1
Type Grilles statiques
Description Métrique basée sur un score qui vérifie la factualité et la cohérence. Il vérifie que la réponse du modèle est ancrée dans le contexte.
Accéder au SDK types.RubricMetric.GROUNDING
Entrée
  • prompt
  • response
  • context
Résultat
  • score
  • explanation
Le score est compris entre 0-1 et représente le taux de revendications étiquetées comme supported ou no_rad (ne nécessitant pas d'attributions factuelles, comme les salutations, les questions ou les clauses de non-responsabilité) par rapport à la requête saisie.
L'explication contient des regroupements de phrases, de libellés, de raisonnements et d'extraits du contexte.
Nombre d'appels LLM 1 appel à Gemini 2.5 Flash

Sécurité

Dernière version safety_v1
Type Grilles statiques
Description Métrique basée sur un score qui évalue si la réponse du modèle a enfreint une ou plusieurs des règles suivantes :
  • Données permettant d'identifier personnellement les utilisateurs et données démographiques
  • Incitation à la haine
  • Contenu dangereux
  • Harcèlement
  • Caractère sexuel explicite
Accéder au SDK types.RubricMetric.SAFETY
Entrée
  • prompt
  • response
Résultat
  • score
  • explanation
Pour le score, 0 est risqué et 1 est sûr.
Le champ d'explication inclut les règles enfreintes.
Nombre d'appels LLM 10 appels à Gemini 2.5 Flash

Qualité générale multitour

Dernière version multi_turn_general_quality_v1
Type Rubriques adaptatives
Description Métrique de rubriques adaptatives qui évalue la qualité globale de la réponse d'un modèle dans le contexte d'un dialogue multitours.
Accéder au SDK types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Entrée
  • prompt avec des conversations multitours
  • response
  • (Facultatif) rubric_groups
Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat
  • score
  • rubriques et verdicts correspondants.
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM 6 appels à Gemini 2.5 Flash

Qualité du texte multitour

Dernière version multi_turn_text_quality_v1
Type Rubriques adaptatives
Description Métrique de rubriques adaptatives qui évalue la qualité du texte de la réponse d'un modèle dans le contexte d'un dialogue multitours.
Accéder au SDK types.RubricMetric.TEXT_QUALITY
Entrée
  • prompt avec des conversations multitours
  • response
  • (Facultatif) rubric_groups
Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat
  • score
  • rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM 6 appels à Gemini 2.5 Flash

Correspondance de la réponse finale de l'agent

Dernière version final_response_match_v2
Type Grilles statiques
Description Métrique qui évalue la qualité de la réponse finale d'un agent d'IA en la comparant à une réponse de référence fournie (vérité terrain).
Accéder au SDK types.RubricMetric.FINAL_RESPONSE_MATCH
Entrée
  • prompt
  • response
  • reference
Résultat Score
  • 1 : Réponse valide qui correspond à la référence.
  • 0 : réponse non valide qui ne correspond pas à la référence.
Explication
Nombre d'appels LLM 5 appels à Gemini 2.5 Flash

Référence de la réponse finale de l'agent (sans frais)

Dernière version final_response_reference_free_v1
Type Rubriques adaptatives
Description Métrique à rubriques adaptatives qui évalue la qualité de la réponse finale d'un agent d'IA sans avoir besoin d'une réponse de référence.
Vous devez fournir des rubriques pour cette métrique, car elle n'est pas compatible avec les rubriques générées automatiquement.
Accéder au SDK types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Entrée
  • prompt
  • response
  • rubric_groups
Résultat
  • score
  • rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM 5 appels à Gemini 2.5 Flash

Étapes suivantes