A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estarão disponíveis em projetos que não os usaram antes, incluindo novos projetos. Para mais detalhes, consulte Versões e ciclo de vida do modelo.

Esta página foi traduzida pela API Cloud Translation.

Avaliar um agente

Depois de desenvolver um agente, você pode usar o serviço de avaliação de IA generativa para avaliar a capacidade do agente de concluir tarefas e metas para um determinado caso de uso.

Definir métricas de avaliação

Comece com uma lista vazia de métricas (ou seja, metrics = []) e adicione as métricas relevantes. Para incluir outras métricas:

Resposta final

A avaliação da resposta final segue o mesmo processo da avaliação baseada em modelo. Para mais detalhes, consulte Definir as métricas de avaliação.

Correspondência exata

metrics.append("trajectory_exact_match")

Se a trajetória prevista for idêntica à trajetória de referência, com as mesmas chamadas de ferramenta na mesma ordem, a métrica trajectory_exact_match vai retornar uma pontuação de 1. Caso contrário, será 0.

Parâmetros de entrada:

predicted_trajectory: a lista de chamadas de ferramentas usadas pelo agente para chegar à resposta final.
reference_trajectory: o uso esperado da ferramenta para que o agente atenda à consulta.

Correspondência na ordem

metrics.append("trajectory_in_order_match")

Se a trajetória prevista contiver todas as chamadas de ferramenta da trajetória de referência na mesma ordem e também tiver chamadas de ferramenta extras, a métrica trajectory_in_order_match vai retornar uma pontuação de 1. Caso contrário, será 0.

Parâmetros de entrada:

predicted_trajectory: a trajetória prevista usada pelo agente para chegar à resposta final.
reference_trajectory: a trajetória prevista esperada para que o agente atenda à consulta.

Correspondência de qualquer ordem

metrics.append("trajectory_any_order_match")

Se a trajetória prevista contiver todas as chamadas de ferramenta da trajetória de referência, mas a ordem não for importante e puder conter chamadas de ferramenta extras, a métrica trajectory_any_order_match vai retornar uma pontuação de 1. Caso contrário, ela vai retornar 0.

Parâmetros de entrada:

predicted_trajectory: a lista de chamadas de ferramentas usadas pelo agente para chegar à resposta final.
reference_trajectory: o uso esperado da ferramenta para que o agente atenda à consulta.

Precisão

metrics.append("trajectory_precision")

A métrica trajectory_precision mede quantas das chamadas de ferramentas na trajetória prevista são realmente relevantes ou corretas de acordo com a trajetória de referência. É um valor float no intervalo de [0, 1]: quanto maior a pontuação, mais precisa a trajetória prevista.

A precisão é calculada da seguinte maneira: conte quantas ações na trajetória prevista também aparecem na trajetória de referência. Divida essa contagem pelo número total de ações na trajetória prevista.

Parâmetros de entrada:

predicted_trajectory: a lista de chamadas de ferramentas usadas pelo agente para chegar à resposta final.
reference_trajectory: o uso esperado da ferramenta para que o agente atenda à consulta.

Recall

metrics.append("trajectory_recall")

A métrica trajectory_recall mede quantas das chamadas de ferramentas essenciais da trajetória de referência são realmente capturadas na trajetória prevista. É um valor float na faixa de [0, 1]: quanto maior a pontuação, melhor a recuperação da trajetória prevista.

O recall é calculado da seguinte maneira: conte quantas ações na trajetória de referência também aparecem na trajetória prevista. Divida essa contagem pelo número total de ações na trajetória de referência.

Parâmetros de entrada:

predicted_trajectory: a lista de chamadas de ferramentas usadas pelo agente para chegar à resposta final.
reference_trajectory: o uso esperado da ferramenta para que o agente atenda à consulta.

Uso de uma única ferramenta

from vertexai.preview.evaluation import metrics

metrics.append(metrics.TrajectorySingleToolUse(tool_name='tool_name'))

A métrica trajectory_single_tool_use verifica se uma ferramenta específica especificada na especificação da métrica é usada na trajetória prevista. Ele não verifica a ordem das chamadas de ferramentas nem quantas vezes a ferramenta é usada, apenas se ela está presente ou não. O valor é 0 se a ferramenta estiver ausente e 1 caso contrário.

Parâmetros de entrada:

predicted_trajectory: a lista de chamadas de ferramentas usadas pelo agente para chegar à resposta final.

Personalizado

É possível definir uma métrica personalizada da seguinte maneira:

from vertexai.preview.evaluation import metrics

def word_count(instance):
  response = instance["response"]
  score = len(response.split(" "))
  return {"word_count": score}

metrics.append(
  metrics.CustomMetric(name="word_count", metric_function=word_count)
)

As duas métricas de desempenho a seguir são sempre incluídas nos resultados. Não é necessário especificar esses valores em EvalTask:

latency (float): tempo (em segundos) que o agente levou para responder.
failure (bool): 0 se a invocação do agente tiver sido bem-sucedida, 1 caso contrário.

Preparar conjunto de dados de avaliação

Para preparar o conjunto de dados para a avaliação final da resposta ou da trajetória: