Diese Seite wurde von der Cloud Translation API übersetzt.

Kundenservicemitarbeiter bewerten

Nachdem Sie einen Agenten entwickelt haben, können Sie mit dem Gen AI Evaluation Service die Fähigkeit des Agents bewerten, Aufgaben und Ziele für einen bestimmten Anwendungsfall zu erledigen.

Bewertungsmesswerte definieren

Beginnen Sie mit einer leeren Liste von Messwerten (z.B. metrics = []) und fügen Sie die relevanten Messwerte hinzu. So fügen Sie weitere Messwerte hinzu:

Endgültige Antwort

Die endgültige Antwortbewertung erfolgt nach demselben Verfahren wie die modellbasierte Bewertung. Weitere Informationen finden Sie unter Bewertungsmesswerte definieren.

Genaue Übereinstimmung

metrics.append("trajectory_exact_match")

Wenn die vorhergesagte Flugbahn mit der Referenzflugbahn identisch ist und die Toolaufrufe in genau derselben Reihenfolge erfolgen, gibt der Messwert trajectory_exact_match die Punktzahl 1 zurück, andernfalls 0.

Eingabeparameter:

predicted_trajectory: Die Liste der Toolaufrufe, die der Kundenservicemitarbeiter verwendet hat, um die endgültige Antwort zu erhalten.
reference_trajectory: Die erwartete Toolnutzung des Kundenservicemitarbeiters, um die Anfrage zu beantworten.

Sortierte Übereinstimmung

metrics.append("trajectory_in_order_match")

Wenn die vorhergesagte Flugbahn alle Toolaufrufe aus der Referenzflugbahn in derselben Reihenfolge enthält und möglicherweise auch zusätzliche Toolaufrufe enthält, wird für den Messwert trajectory_in_order_match die Bewertung 1 zurückgegeben, andernfalls 0.

Eingabeparameter:

predicted_trajectory: Die vorhergesagte Flugbahn, die der Bot verwendet, um die endgültige Antwort zu erreichen.
reference_trajectory: Die erwartete vorhergesagte Flugbahn des Fahrzeugs, um die Anfrage zu erfüllen.

Übereinstimmung in beliebiger Reihenfolge

metrics.append("trajectory_any_order_match")

Wenn die vorhergesagte Flugbahn alle Toolaufrufe aus der Referenzflugbahn enthält, die Reihenfolge jedoch keine Rolle spielt und zusätzliche Toolaufrufe enthalten kann, wird für den Messwert trajectory_any_order_match die Bewertung 1 zurückgegeben, andernfalls 0.

Eingabeparameter:

predicted_trajectory: Die Liste der Toolaufrufe, die der Kundenservicemitarbeiter verwendet hat, um die endgültige Antwort zu erhalten.
reference_trajectory: Die erwartete Toolnutzung des Kundenservicemitarbeiters, um die Anfrage zu beantworten.

Precision

metrics.append("trajectory_precision")

Der Messwert trajectory_precision gibt an, wie viele der Toolaufrufe in der prognostizierten Flugbahn gemäß der Referenzflugbahn tatsächlich relevant oder korrekt sind. Es ist ein float-Wert im Bereich von [0, 1]: Je höher der Wert, desto genauer ist die prognostizierte Flugbahn.

Die Genauigkeit wird so berechnet: Zählen Sie, wie viele Aktionen in der vorhergesagten Flugbahn auch in der Referenzflugbahn vorkommen. Teilen Sie diese Anzahl durch die Gesamtzahl der Aktionen in der vorhergesagten Flugbahn.

Eingabeparameter:

predicted_trajectory: Die Liste der Toolaufrufe, die der Kundenservicemitarbeiter verwendet hat, um die endgültige Antwort zu erhalten.
reference_trajectory: Die erwartete Toolnutzung des Kundenservicemitarbeiters, um die Anfrage zu beantworten.

Recall

metrics.append("trajectory_recall")

Mit dem Messwert trajectory_recall wird gemessen, wie viele der wichtigen Toolaufrufe aus der Referenztrajektorie tatsächlich in der prognostizierten Trajektorie erfasst werden. Es ist ein float-Wert im Bereich von [0, 1]: Je höher die Punktzahl, desto besser ist die Wiedererkennung der prognostizierten Flugbahn.

Der Recall wird so berechnet: Zählen Sie, wie viele Aktionen in der Referenztrajektorie auch in der prognostizierten Trajektorie vorkommen. Teilen Sie diese Anzahl durch die Gesamtzahl der Aktionen in der Referenztrajektorie.

Eingabeparameter:

predicted_trajectory: Die Liste der Toolaufrufe, die der Kundenservicemitarbeiter verwendet hat, um die endgültige Antwort zu erhalten.
reference_trajectory: Die erwartete Toolnutzung des Kundenservicemitarbeiters, um die Anfrage zu beantworten.

Ein einzelnes Tool verwenden

from vertexai.preview.evaluation import metrics

metrics.append(metrics.TrajectorySingleToolUse(tool_name='tool_name'))

Mit dem Messwert trajectory_single_tool_use wird geprüft, ob ein bestimmtes Tool, das in der Messwertspezifikation angegeben ist, in der prognostizierten Flugbahn verwendet wird. Es wird nicht geprüft, in welcher Reihenfolge die Toolaufrufe erfolgen oder wie oft das Tool verwendet wird, sondern nur, ob es vorhanden ist oder nicht. Der Wert ist 0, wenn das Tool nicht vorhanden ist, andernfalls 1.

Eingabeparameter:

predicted_trajectory: Die Liste der Toolaufrufe, die der Kundenservicemitarbeiter verwendet hat, um die endgültige Antwort zu erhalten.

Benutzerdefiniert

So definieren Sie einen benutzerdefinierten Messwert:

from vertexai.preview.evaluation import metrics

def word_count(instance):
  response = instance["response"]
  score = len(response.split(" "))
  return {"word_count": score}

metrics.append(
  metrics.CustomMetric(name="word_count", metric_function=word_count)
)

Die folgenden beiden Leistungsmesswerte sind immer in den Ergebnissen enthalten. Sie müssen sie in EvalTask nicht angeben:

latency (float): Zeit (in Sekunden), die der Kundenservicemitarbeiter für die Beantwortung benötigt hat.
failure (bool): 0, wenn die Agent-Aufrufung erfolgreich war, 1 andernfalls.

Bewertungs-Dataset vorbereiten

So bereiten Sie Ihr Dataset für die endgültige Antwort- oder Flugbahnbewertung vor:

Endgültige Antwort

Das Datenschema für die Bewertung der endgültigen Antwort ähnelt dem der Bewertung der Modellantwort.