Cette page a été traduite par l'API Cloud Translation.

Évaluer un agent

Après avoir développé un agent, vous pouvez utiliser le service d'évaluation de l'IA générative pour évaluer sa capacité à accomplir des tâches et à atteindre des objectifs pour un cas d'utilisation donné.

Définir des métriques d'évaluation

Commencez par une liste vide de métriques (metrics = []) et ajoutez-y les métriques pertinentes. Pour inclure des métriques supplémentaires:

Réponse finale

L'évaluation de la réponse finale suit le même processus que l'évaluation basée sur un modèle. Pour en savoir plus, consultez Définir vos métriques d'évaluation.

Correspondance exacte

metrics.append("trajectory_exact_match")

Si la trajectoire prévue est identique à la trajectoire de référence, avec les mêmes appels d'outils dans le même ordre, la métrique trajectory_exact_match renvoie un score de 1, sinon 0.

Paramètres d'entrée:

predicted_trajectory: liste des appels d'outils utilisés par l'agent pour obtenir la réponse finale.
reference_trajectory: utilisation attendue de l'outil pour que l'agent réponde à la requête.

Correspondance dans l'ordre

metrics.append("trajectory_in_order_match")

Si la trajectoire prévue contient tous les appels d'outils de la trajectoire de référence dans le même ordre et peut également contenir des appels d'outils supplémentaires, la métrique trajectory_in_order_match renvoie un score de 1, sinon 0.

Paramètres d'entrée:

predicted_trajectory: trajectoire prévue utilisée par l'agent pour atteindre la réponse finale.
reference_trajectory: trajectoire prévue pour que l'agent réponde à la requête.

Correspondance dans n'importe quel ordre

metrics.append("trajectory_any_order_match")

Si la trajectoire prévue contient tous les appels d'outil de la trajectoire de référence, mais que l'ordre n'a pas d'importance et qu'elle peut contenir des appels d'outil supplémentaires, la métrique trajectory_any_order_match renvoie un score de 1, sinon 0.

Paramètres d'entrée:

predicted_trajectory: liste des appels d'outils utilisés par l'agent pour obtenir la réponse finale.
reference_trajectory: utilisation attendue de l'outil pour que l'agent réponde à la requête.

Précision

metrics.append("trajectory_precision")

La métrique trajectory_precision mesure le nombre d'appels d'outils dans la trajectoire prévue qui sont réellement pertinents ou corrects par rapport à la trajectoire de référence. Il s'agit d'une valeur float comprise dans la plage [0, 1]: plus le score est élevé, plus la trajectoire prévue est précise.

La précision est calculée comme suit: comptez le nombre d'actions de la trajectoire prévue qui apparaissent également dans la trajectoire de référence. Divisez ce nombre par le nombre total d'actions dans la trajectoire prévue.

Paramètres d'entrée:

predicted_trajectory: liste des appels d'outils utilisés par l'agent pour obtenir la réponse finale.
reference_trajectory: utilisation attendue de l'outil pour que l'agent réponde à la requête.

Rappel

metrics.append("trajectory_recall")

La métrique trajectory_recall mesure le nombre d'appels d'outils essentiels de la trajectoire de référence qui sont réellement capturés dans la trajectoire prévue. Il s'agit d'une valeur float comprise dans la plage [0, 1]: plus le score est élevé, meilleur est le rappel de la trajectoire prévue.

Le rappel est calculé comme suit: comptez le nombre d'actions de la trajectoire de référence qui apparaissent également dans la trajectoire prédite. Divisez ce nombre par le nombre total d'actions dans la trajectoire de référence.

Paramètres d'entrée:

predicted_trajectory: liste des appels d'outils utilisés par l'agent pour obtenir la réponse finale.
reference_trajectory: utilisation attendue de l'outil pour que l'agent réponde à la requête.

Utilisation d'un seul outil

from vertexai.preview.evaluation import metrics

metrics.append(metrics.TrajectorySingleToolUse(tool_name='tool_name'))

La métrique trajectory_single_tool_use vérifie si un outil spécifique spécifié dans la spécification de la métrique est utilisé dans la trajectoire prévue. Il ne vérifie pas l'ordre des appels d'outils ni le nombre de fois où l'outil est utilisé, mais simplement s'il est présent ou non. Il s'agit de la valeur 0 si l'outil est absent, ou de 1 dans le cas contraire.

Paramètres d'entrée:

predicted_trajectory: liste des appels d'outils utilisés par l'agent pour obtenir la réponse finale.

Personnalisé

Vous pouvez définir une métrique personnalisée comme suit:

from vertexai.preview.evaluation import metrics

def word_count(instance):
  response = instance["response"]
  score = len(response.split(" "))
  return {"word_count": score}

metrics.append(
  metrics.CustomMetric(name="word_count", metric_function=word_count)
)

Les deux métriques de performances suivantes sont toujours incluses dans les résultats. Vous n'avez pas besoin de les spécifier dans EvalTask:

latency (float): temps (en secondes) nécessaire à l'agent pour répondre.
failure (bool): 0 si l'appel de l'agent a réussi, 1 dans le cas contraire.

Préparer l'ensemble de données d'évaluation

Pour préparer votre ensemble de données à l'évaluation finale de la réponse ou de la trajectoire:

Réponse finale

Le schéma de données pour l'évaluation de la réponse finale est semblable à celui de l'évaluation de la réponse du modèle.