A partire dal 29 aprile 2025, i modelli Gemini 1.5 Pro e Gemini 1.5 Flash non sono disponibili nei progetti che non li hanno mai utilizzati, inclusi i nuovi progetti. Per maggiori dettagli, vedi Versioni e ciclo di vita dei modelli.

Questa pagina è stata tradotta dall'API Cloud Translation.

Valutare un agente

Dopo aver sviluppato un agente, puoi utilizzare il servizio di valutazione dell'IA generativa per valutare la capacità dell'agente di completare attività e obiettivi per un determinato caso d'uso.

Definisci le metriche di valutazione

Inizia con un elenco vuoto di metriche (ad es. metrics = []) e aggiungi le metriche pertinenti. Per includere altre metriche:

Risposta finale

La valutazione della risposta finale segue la stessa procedura della valutazione basata su modelli. Per maggiori dettagli, vedi Definire le metriche di valutazione.

Corrispondenza esatta

metrics.append("trajectory_exact_match")

Se la traiettoria prevista è identica a quella di riferimento, con le stesse chiamate dello strumento nello stesso ordine, la metrica trajectory_exact_match restituisce un punteggio pari a 1, altrimenti 0.

Parametri di input:

predicted_trajectory: l'elenco delle chiamate allo strumento utilizzate dall'agente per raggiungere la risposta finale.
reference_trajectory: l'utilizzo previsto dello strumento per consentire all'agente di soddisfare la query.

Corrispondenza in ordine

metrics.append("trajectory_in_order_match")

Se la traiettoria prevista contiene tutte le chiamate allo strumento della traiettoria di riferimento nello stesso ordine e può anche avere chiamate allo strumento aggiuntive, la metrica trajectory_in_order_match restituisce un punteggio pari a 1, altrimenti 0.

Parametri di input:

predicted_trajectory: la traiettoria prevista utilizzata dall'agente per raggiungere la risposta finale.
reference_trajectory: la traiettoria prevista per consentire all'agente di soddisfare la query.

Corrispondenza in qualsiasi ordine

metrics.append("trajectory_any_order_match")

Se la traiettoria prevista contiene tutte le chiamate allo strumento della traiettoria di riferimento, ma l'ordine non è importante e possono essere presenti chiamate allo strumento aggiuntive, la metrica trajectory_any_order_match restituisce un punteggio pari a 1, altrimenti 0.

Parametri di input:

predicted_trajectory: l'elenco delle chiamate allo strumento utilizzate dall'agente per raggiungere la risposta finale.
reference_trajectory: l'utilizzo dello strumento previsto per consentire all'agente di soddisfare la query.

Precisione

metrics.append("trajectory_precision")

La metrica trajectory_precision misura quante chiamate dello strumento nella traiettoria prevista sono effettivamente pertinenti o corrette in base alla traiettoria di riferimento. Si tratta di un valore float compreso nell'intervallo [0, 1]: più alto è il punteggio, più precisa è la traiettoria prevista.

La precisione viene calcolata nel seguente modo: conteggia quante azioni nella traiettoria prevista compaiono anche nella traiettoria di riferimento. Dividi questo conteggio per il numero totale di azioni nella traiettoria prevista.

Parametri di input:

predicted_trajectory: l'elenco delle chiamate allo strumento utilizzate dall'agente per raggiungere la risposta finale.
reference_trajectory: l'utilizzo dello strumento previsto per consentire all'agente di soddisfare la query.

Richiamo

metrics.append("trajectory_recall")

La metrica trajectory_recall misura quante chiamate allo strumento essenziale dalla traiettoria di riferimento vengono effettivamente acquisite nella traiettoria prevista. Si tratta di un valore float compreso nell'intervallo [0, 1]: più elevato è il punteggio, migliore è il richiamo della traiettoria prevista.

Il richiamo viene calcolato nel seguente modo: conteggia quante azioni nella traiettoria di riferimento compaiono anche nella traiettoria prevista. Dividi questo conteggio per il numero totale di azioni nella traiettoria di riferimento.

Parametri di input:

predicted_trajectory: l'elenco delle chiamate allo strumento utilizzate dall'agente per raggiungere la risposta finale.
reference_trajectory: l'utilizzo dello strumento previsto per consentire all'agente di soddisfare la query.

Utilizzo di un singolo strumento

from vertexai.preview.evaluation import metrics

metrics.append(metrics.TrajectorySingleToolUse(tool_name='tool_name'))

La metrica trajectory_single_tool_use verifica se nella traiettoria prevista viene utilizzato uno strumento specifico specificato nella specifica della metrica. Non controlla l'ordine delle chiamate dello strumento o il numero di volte in cui viene utilizzato, ma solo se è presente o meno. È un valore 0 se lo strumento non è presente, 1 in caso contrario.

Parametri di input:

predicted_trajectory: l'elenco delle chiamate allo strumento utilizzate dall'agente per raggiungere la risposta finale.

Personalizzato

Puoi definire una metrica personalizzata come segue:

from vertexai.preview.evaluation import metrics

def word_count(instance):
  response = instance["response"]
  score = len(response.split(" "))
  return {"word_count": score}

metrics.append(
  metrics.CustomMetric(name="word_count", metric_function=word_count)
)

Le seguenti due metriche sul rendimento sono sempre incluse nei risultati. Non è necessario specificarli in EvalTask:

latency (float): tempo (in secondi) impiegato dall'agente per rispondere.
failure (bool): 0 se l'invocazione dell'agente è riuscita, 1 in caso contrario.

Prepara il set di dati di valutazione

Per preparare il set di dati per la valutazione della risposta finale o della traiettoria: