Se usó la API de Cloud Translation para traducir esta página.

Cómo evaluar un agente

Después de desarrollar un agente, puedes usar el servicio de evaluación de IA generativa para evaluar la capacidad del agente para completar tareas y objetivos en un caso de uso determinado.

Define las métricas de evaluación

Comienza con una lista vacía de métricas (es decir, metrics = []) y agrégale las métricas relevantes. Para incluir métricas adicionales, sigue estos pasos:

Respuesta final

La evaluación de la respuesta final sigue el mismo proceso que la evaluación basada en modelos. Para obtener más información, consulta Define tus métricas de evaluación.

Concordancia exacta

metrics.append("trajectory_exact_match")

Si la trayectoria prevista es idéntica a la trayectoria de referencia, con las mismas llamadas a la herramienta en el mismo orden, la métrica trajectory_exact_match muestra una puntuación de 1; de lo contrario, muestra 0.

Parámetros de entrada:

predicted_trajectory: Es la lista de llamadas a herramientas que usa el agente para llegar a la respuesta final.
reference_trajectory: Es el uso esperado de la herramienta para que el agente satisfaga la consulta.

Coincidencia en orden

metrics.append("trajectory_in_order_match")

Si la trayectoria prevista contiene todas las llamadas a la herramienta de la trayectoria de referencia en el mismo orden y también puede tener llamadas a la herramienta adicionales, la métrica trajectory_in_order_match muestra una puntuación de 1; de lo contrario, muestra 0.

Parámetros de entrada:

predicted_trajectory: Es la trayectoria prevista que usa el agente para llegar a la respuesta final.
reference_trajectory: Es la trayectoria prevista esperada para que el agente satisfaga la consulta.

Coincidencia en cualquier orden

metrics.append("trajectory_any_order_match")

Si la trayectoria prevista contiene todas las llamadas a la herramienta de la trayectoria de referencia, pero el orden no importa y puede contener llamadas a herramientas adicionales, la métrica trajectory_any_order_match muestra una puntuación de 1; de lo contrario, muestra 0.

Parámetros de entrada:

predicted_trajectory: Es la lista de llamadas a herramientas que usa el agente para llegar a la respuesta final.
reference_trajectory: Es el uso esperado de la herramienta para que el agente satisfaga la consulta.

Precisión

metrics.append("trajectory_precision")

La métrica trajectory_precision mide cuántas de las llamadas a la herramienta en la trayectoria prevista son realmente relevantes o correctas según la trayectoria de referencia. Es un valor float en el rango de [0, 1]: cuanto más alta sea la puntuación, más precisa será la trayectoria prevista.

La precisión se calcula de la siguiente manera: Cuenta cuántas acciones de la trayectoria prevista también aparecen en la trayectoria de referencia. Divide ese recuento por la cantidad total de acciones en la trayectoria prevista.

Parámetros de entrada:

predicted_trajectory: Es la lista de llamadas a herramientas que usa el agente para llegar a la respuesta final.
reference_trajectory: Es el uso esperado de la herramienta para que el agente satisfaga la consulta.

Recuperación

metrics.append("trajectory_recall")

La métrica trajectory_recall mide cuántas de las llamadas a herramientas esenciales de la trayectoria de referencia se capturan en la trayectoria prevista. Es un valor float en el rango de [0, 1]: cuanto más alta sea la puntuación, mejor será la recuperación de la trayectoria prevista.

La recuperación se calcula de la siguiente manera: Cuenta cuántas acciones de la trayectoria de referencia también aparecen en la trayectoria prevista. Divide ese recuento por la cantidad total de acciones en la trayectoria de referencia.

Parámetros de entrada:

predicted_trajectory: Es la lista de llamadas a herramientas que usa el agente para llegar a la respuesta final.
reference_trajectory: Es el uso esperado de la herramienta para que el agente satisfaga la consulta.

Uso de una sola herramienta

from vertexai.preview.evaluation import metrics

metrics.append(metrics.TrajectorySingleToolUse(tool_name='tool_name'))

La métrica trajectory_single_tool_use verifica si se usa una herramienta específica que se especifica en la especificación de la métrica en la trayectoria prevista. No verifica el orden de las llamadas a la herramienta ni cuántas veces se usa, solo si está presente o no. Es un valor de 0 si la herramienta no está presente, 1 de lo contrario.

Parámetros de entrada:

predicted_trajectory: Es la lista de llamadas a herramientas que usa el agente para llegar a la respuesta final.

Personalizado

Puedes definir una métrica personalizada de la siguiente manera:

from vertexai.preview.evaluation import metrics

def word_count(instance):
  response = instance["response"]
  score = len(response.split(" "))
  return {"word_count": score}

metrics.append(
  metrics.CustomMetric(name="word_count", metric_function=word_count)
)

Las siguientes dos métricas de rendimiento siempre se incluyen en los resultados. No necesitas especificarlos en EvalTask:

latency (float): Es el tiempo (en segundos) que tarda el agente en responder.
failure (bool): 0 si la invocación del agente se realizó correctamente, 1 de lo contrario.

Prepara el conjunto de datos de evaluación

Para preparar tu conjunto de datos para la respuesta final o la evaluación de la trayectoria, sigue estos pasos: