Bewertungsmesswerte definieren

Der erste Schritt bei der Bewertung Ihrer generativen Modelle oder Anwendungen besteht darin, Ihr Bewertungsziel zu ermitteln und Ihre Bewertungsmesswerte zu definieren. Auf dieser Seite finden Sie einen Überblick über Konzepte im Zusammenhang mit der Definition von Bewertungsmesswerten für Ihren Anwendungsfall.

Übersicht

Mithilfe von Modellen für generative KI lassen sich Anwendungen für eine Vielzahl von Aufgaben erstellen, z. B. für die Zusammenfassung von Nachrichtenartikeln, die Beantwortung von Kundenanfragen oder die Unterstützung beim Schreiben von Code. Mit dem Gen AI-Bewertungsdienst in Vertex AI können Sie jedes Modell mit erklärbaren Messwerten bewerten.

Angenommen, Sie entwickeln eine Anwendung, mit der Artikel zusammengefasst werden. Um die Leistung Ihrer Anwendung bei dieser bestimmten Aufgabe zu bewerten, sollten Sie die Kriterien berücksichtigen, die Sie messen möchten, und die Messwerte, mit denen Sie sie bewerten möchten:

  • Kriterien: Einzelne oder mehrere Dimensionen, die Sie auswerten möchten, z. B. conciseness, relevance, correctness oder appropriate choice of words.

  • Messwerte: Ein einzelner Wert, mit dem die Modellausgabe anhand von Kriterien bewertet wird.

Der Gen AI Evaluation Service bietet zwei Haupttypen von Messwerten:

  • Modellbasierte Messwerte: Mit unseren modellbasierten Messwerten wird Ihr Modell mit einem Referenzmodell verglichen. Das Bewertungsmodell für die meisten Anwendungsfälle ist Gemini. Für Übersetzungsanwendungen können Sie aber auch Modelle wie MetricX oder COMET verwenden.

    Sie können modellbasierte Messwerte paarweise oder punktbasiert messen:

    • Punktbasierte Messwerte: Das Bewertungsmodell bewertet die Ausgabe des Kandidatenmodells anhand der Bewertungskriterien. Die Bewertung könnte beispielsweise zwischen 0 und 5 liegen, wobei 0 bedeutet, dass die Antwort nicht den Kriterien entspricht, und 5 bedeutet, dass die Antwort den Kriterien gut entspricht.

    • Paarweise Messwerte: Das Bewertungsmodell vergleicht die Antworten der beiden Modelle und wählt die bessere aus. Dieser Wert wird häufig verwendet, um ein Kandidatenmodell mit dem Referenzmodell zu vergleichen. Paarweise Messwerte werden nur mit Gemini als Bewertungsmodell unterstützt.

  • Berechnungsbasierte Messwerte: Diese Messwerte werden anhand mathematischer Formeln berechnet, um die Ausgabe des Modells mit einer Ground Truth oder Referenz zu vergleichen. Zu den gängigen berechnungsbasierten Messwerten gehören ROUGE und BLEU.

Sie können berechnungsbasierte Messwerte einzeln oder zusammen mit modellbasierten Messwerten verwenden. Anhand der folgenden Tabelle können Sie entscheiden, wann Sie modellbasierte oder berechnungsbasierte Messwerte verwenden sollten:

Bewertungsansatz Daten Kosten und Geschwindigkeit
Modellbasierte Messwerte Bewertungsmodell verwenden, um die Leistung anhand beschreibender Bewertungskriterien zu bewerten Ground Truth ist optional Etwas teurer und langsamer
Berechnungsbasierte Messwerte Leistung mithilfe mathematischer Formeln bewerten In der Regel ist eine Ground Truth erforderlich. Kostengünstig und schnell

Weitere Informationen finden Sie unter Dataset vorbereiten und Bewertung ausführen.

Modellbasierte Messwerte definieren

Bei der modellbasierten Bewertung wird ein Modell für maschinelles Lernen als Bewertungsmodell verwendet, um die Ausgabe des Kandidatenmodells zu bewerten.

Eigene Bewertungsmodelle von Google wie Gemini werden mit menschlichen Prüfern kalibriert, um ihre Qualität zu gewährleisten. Sie werden verwaltet und sind sofort einsatzbereit. Der Ablauf der modellbasierten Bewertung hängt von den von Ihnen angegebenen Bewertungsmesswerten ab.

Die modellbasierte Bewertung folgt diesem Prozess:

  1. Datenvorbereitung: Sie stellen Bewertungsdaten in Form von Eingabeaufforderungen bereit. Die Kandidatenmodelle erhalten die Prompts und generieren entsprechende Antworten.

  2. Bewertung: Die Bewertungsmesswerte und die generierten Antworten werden an das Bewertungsmodell gesendet. Beim Bewertungsmodell wird jede Antwort einzeln bewertet und eine zeilenbasierte Bewertung vorgenommen.

  3. Aggregation und Erklärung: Der Gen AI Evaluation Service aggregiert diese einzelnen Bewertungen zu einer Gesamtpunktzahl. Die Ausgabe enthält außerdem Chain-of-Thought-Erläuterungen für jedes Urteil, in denen die Gründe für die Auswahl erläutert werden.

Der Gen AI-Bewertungsdienst bietet die folgenden Optionen zum Einrichten Ihrer modellbasierten Messwerte mit dem Vertex AI SDK:

Option Beschreibung Optimal für
Vorhandenes Beispiel verwenden Verwenden Sie eine vordefinierte Vorlage für Messwertvorschläge, um loszulegen. Gängige Anwendungsfälle, zeitsparend
Messwerte mithilfe unserer Vorlagenoberfläche definieren Sie erhalten Unterstützung bei der Definition Ihrer Messwerte. Die Vorlagenoberfläche bietet Struktur und Vorschläge. Anpassung mit Support
Messwerte von Grund auf neu definieren Sie haben die volle Kontrolle über Ihre Messwertdefinitionen. Ideal für sehr spezifische Anwendungsfälle. Erfordert mehr technisches Fachwissen und Zeitaufwand.

Sie könnten beispielsweise eine generative KI-Anwendung entwickeln, die flüssige und unterhaltsame Antworten zurückgibt. Für diese Anwendung können Sie über die Vorlagenoberfläche zwei Bewertungskriterien definieren:

  • Fluency: Die Sätze fließen flüssig und es werden unpassende Formulierungen oder Satzbaufehler vermieden. Ideen und Sätze sind logisch miteinander verbunden und es werden bei Bedarf effektiv Übergänge verwendet.

  • Unterhaltung: Kurze, amüsante Texte mit Emojis, Ausrufen und Fragen, die schnelle und spontane Kommunikation und Ablenkung vermitteln.

Um diese beiden Kriterien in einen Messwert umzuwandeln, benötigen Sie eine Gesamtbewertung von -1 bis 1, die custom_text_quality genannt wird. Sie können einen Messwert so definieren:

# Define a pointwise metric with two criteria: Fluency and Entertaining.
custom_text_quality = PointwiseMetric(
    metric="custom_text_quality",
    metric_prompt_template=PointwiseMetricPromptTemplate(
        criteria={
            "fluency": (
                "Sentences flow smoothly and are easy to read, avoiding awkward"
                " phrasing or run-on sentences. Ideas and sentences connect"
                " logically, using transitions effectively where needed."
            ),
            "entertaining": (
                "Short, amusing text that incorporates emojis, exclamations and"
                " questions to convey quick and spontaneous communication and"
                " diversion."
            ),
        },
        rating_rubric={
            "1": "The response performs well on both criteria.",
            "0": "The response is somewhat aligned with both criteria",
            "-1": "The response falls short on both criteria",
        },
    ),
)

Eine vollständige Liste der Vorlagen für Messwertprompts finden Sie unter Vorlagen für Messwertprompts zur Bewertung.

Übersetzungsmodelle bewerten

Der Gen AI Evaluation Service bietet die folgenden Bewertungsmesswerte für Übersetzungsaufgaben:

MetricX und COMET sind punktbasierte, modellbasierte Messwerte, die für Übersetzungsaufgaben trainiert wurden. Sie können die Qualität und Genauigkeit der Übersetzungsmodellergebnisse für Ihre Inhalte bewerten, unabhängig davon, ob es sich um NMT-, TranslationLLM- oder Gemini-Modelle handelt.

Sie können Gemini auch als Bewertungsmodell verwenden, um Ihr Modell in Kombination mit MetricX, COMET oder BLEU auf Sprachfluss, Kohäsion, Ausführlichkeit und Textqualität zu bewerten.

  • MetricX ist ein von Google entwickelter fehlerbasierter Messwert, der einen Gleitkommawert zwischen 0 und 25 vorhersagt, der die Qualität einer Übersetzung darstellt. MetricX ist sowohl als referenzbasierte als auch als referenzfreie Methode (QE) verfügbar. Je niedriger der Wert, desto besser, da es weniger Fehler gibt.

  • COMET verwendet einen referenzbasierten Regressionsansatz, der Bewertungen von 0 bis 1 liefert, wobei 1 für eine perfekte Übersetzung steht.

  • BLEU (Bilingual Evaluation Understudy) ist ein berechnungsbasierter Messwert. Der BLEU-Wert gibt an, wie ähnlich der Kandidatentext dem Referenztext ist. Je näher ein BLEU-Score-Wert an 1 liegt, desto näher ist die Übersetzung dem Referenztext.

BLEU-Werte werden nicht empfohlen, um verschiedene Korpora und Sprachen zu vergleichen. Ein BLEU-Wert von 50 für eine Übersetzung vom Englischen ins Deutsche ist beispielsweise nicht mit einem BLEU-Wert von 50 für eine Übersetzung vom Japanischen ins Englische vergleichbar. Viele Übersetzungsexperten haben zu modellbasierten Messmethoden gewechselt, die eine höhere Korrelation mit menschlichen Bewertungen aufweisen und Fehlerszenarien detaillierter identifizieren.

Weitere Informationen zum Ausführen von Bewertungen für Übersetzungsmodelle finden Sie unter Übersetzungsmodell bewerten.

Zwischen punktweisen oder paarweisen Vergleichen wählen

Anhand der folgenden Tabelle können Sie entscheiden, wann Sie die punktweise oder paarweise Bewertung verwenden möchten:

Definition Geeignet für Beispielanwendungsfälle
Punktweise Bewertung Ein Modell bewerten und anhand der Kriterien Bewertungen generieren
  • Wenn Sie für jedes zu bewertende Modell eine Bewertung benötigen.
  • Wenn es nicht schwierig ist, die Benotungsskala für jede Punktzahl zu definieren.
  • Sie erfahren, wie sich Ihr Modell in der Produktionsumgebung verhält.
  • Stärken und Schwächen eines einzelnen Modells untersuchen
  • Herausfinden, auf welches Verhalten Sie bei der Abstimmung den Schwerpunkt legen sollten.
  • Referenzleistung eines Modells abrufen
Paarweise Bewertung Zwei Modelle miteinander vergleichen und anhand der Kriterien eine Präferenz generieren
  • Wenn Sie zwei Modelle vergleichen möchten und kein Wert erforderlich ist.
  • Wenn die Benotungsskala für die Punktbewertung schwer zu definieren ist. Es kann beispielsweise schwierig sein, die Benotungsskala für die punktgenaue Textqualität von 1 bis 5 zu definieren, aber nicht so schwierig, zwei Modelle zu vergleichen und eine Präferenz direkt auszugeben.
  • Festlegen, welches Modell in die Produktion überführt werden soll.
  • Wählen Sie einen Modelltyp aus. Beispiel: Gemini-Pro im Vergleich zu Claude 3.
  • Wählen Sie zwischen verschiedenen Prompts.
  • Prüft, ob durch die Abstimmung ein Basismodell verbessert wurde.

Berechnungsbasierte Messwerte

Berechnungsbasierte Messwerte vergleichen, ob die von LLM generierten Ergebnisse mit einem Ground Truth-Dataset von Eingabe/Ausgabe-Paaren konsistent sind. Die am häufigsten verwendeten Messwerte können in die folgenden Gruppen unterteilt werden:

  • Lexikonbasierte Messwerte: Mithilfe von Mathematik werden die Stringähnlichkeiten zwischen LLM-generierten Ergebnissen und der Referenzdatenbank berechnet, z. B. Exact Match und ROUGE.
  • Zählbasierte Messwerte: Hier wird die Anzahl der Zeilen zusammengefasst, die bestimmte Ground-Truth-Labels wie F1-score, Accuracy und Tool Name Match treffen oder verfehlen.
  • Einbettungs-basierte Messwerte: Berechnen Sie den Abstand zwischen den von LLM generierten Ergebnissen und der Ground Truth im Einbettungsraum, um den Grad der Ähnlichkeit zu ermitteln.

Allgemeine Textgenerierung

Anhand der folgenden Messwerte können Sie die Fähigkeit des Modells bewerten, dafür zu sorgen, dass die Antworten für Ihre Nutzer nützlich, sicher und effektiv sind.

Genaue Übereinstimmung

Mit dem Messwert exact_match wird berechnet, ob eine Modellantwort genau mit einer Referenz übereinstimmt.

  • Tokenlimit: Keines

Bewertungskriterien

Nicht zutreffend.

Eingabeparameter für Messwerte

Eingabeparameter Beschreibung
response Die LLM-Antwort.
reference Die goldene LLM-Antwort als Referenz.

Ausgabebewertungen

Wert Beschreibung
0 Keine Übereinstimmung
1 Übereinstimmend

BLEU

Der Messwert bleu (BiLingual Evaluation Understudy) enthält das Ergebnis eines Algorithmus zur Bewertung der Qualität der Antwort, die aus einer natürlichen Sprache in eine andere natürliche Sprache übersetzt wurde. Die Qualität der Antwort wird als Übereinstimmung zwischen einem response-Parameter und seinem reference-Parameter betrachtet.

  • Tokenlimit: Keines

Bewertungskriterien

Nicht zutreffend.

Eingabeparameter für Messwerte

Eingabeparameter Beschreibung
response Die LLM-Antwort.
reference Die goldene LLM-Antwort als Referenz.

Ausgabebewertungen

Wert Beschreibung
Eine Gleitkommazahl im Bereich [0,1] Je höher die Punktzahl, desto besser die Übersetzung. Eine Punktzahl von 1 entspricht einer perfekten Übereinstimmung mit der reference.

ROUGE

Mit dem Messwert ROUGE wird der angegebene response-Parameter mit einem reference-Parameter verglichen. Für alle rouge-Messwerte wird der F1-Wert zurückgegeben. rouge-l-sum wird standardmäßig berechnet. Sie können jedoch die gewünschte rouge-Variante angeben.

  • Tokenlimit: Keines

Bewertungskriterien

Nicht zutreffend

Eingabeparameter für Messwerte

Eingabeparameter Beschreibung
response Die LLM-Antwort.
reference Die goldene LLM-Antwort als Referenz.

Ausgabebewertungen

Wert Beschreibung
Eine Gleitkommazahl im Bereich [0,1] Je näher der Wert an 0 liegt, desto geringer ist die Ähnlichkeit zwischen response und reference. Je näher der Wert an 1 liegt, desto stärker ist die Ähnlichkeit zwischen response und reference.

Toolnutzung und Funktionsaufrufe

Anhand der folgenden Messwerte können Sie die Fähigkeit des Modells bewerten, einen gültigen Tool-Aufruf (Funktion) vorherzusagen.

Aufruf gültig

Der Messwert tool_call_valid beschreibt die Fähigkeit des Modells, einen gültigen Toolaufruf vorherzusagen. Nur der erste Toolaufruf wird geprüft.

  • Tokenlimit: Keines

Bewertungskriterien

Bewertungskriterium Beschreibung
Gültigkeit Die Ausgabe des Modells enthält einen gültigen Toolaufruf.
Formatierung Ein JSON-Wörterbuch enthält die Felder name und arguments.

Eingabeparameter für Messwerte

Eingabeparameter Beschreibung
prediction Die Ausgabe des Kandidatenmodells, ein JSON-serialisierter String, der die Schlüssel content und tool_calls enthält. Der Wert content ist der Textausgang des Modells. Der Wert tool_calls ist ein JSON-serialisierter String einer Liste von Toolaufrufen. Hier ein Beispiel:

{"content": "", "tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference Die Referenzvorhersage für die Ground Truth, die dem Format von prediction entspricht.

Ausgabebewertungen

Wert Beschreibung
0 Ungültiger Toolaufruf
1 Gültiger Toolaufruf

Übereinstimmende Namen

Der Messwert tool_name_match beschreibt die Fähigkeit des Modells, einen Toolaufruf mit dem richtigen Toolnamen vorherzusagen. Nur der erste Toolaufruf wird geprüft.

  • Tokenlimit: Keines

Bewertungskriterien

Bewertungskriterium Beschreibung
Namensabgleich Der vom Modell vorhergesagte Toolaufruf stimmt mit dem Namen des Referenz-Toolaufrufs überein.

Eingabeparameter für Messwerte

Eingabeparameter Beschreibung
prediction Die Ausgabe des Kandidatenmodells, ein JSON-serialisierter String, der die Schlüssel content und tool_calls enthält. Der Wert content ist der Textausgang des Modells. Der Wert tool_call ist ein JSON-serialisierter String einer Liste von Toolaufrufen. Hier ein Beispiel:

{"content": "","tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference Die Referenzvorhersage mit demselben Format wie die prediction.

Ausgabebewertungen

Wert Beschreibung
0 Name des Toolaufrufs entspricht nicht der Referenz.
1 Der Name des Toolaufrufs stimmt mit der Referenz überein.

Übereinstimmung des Parameterschlüssels

Der Messwert tool_parameter_key_match beschreibt die Fähigkeit des Modells, einen Toolaufruf mit den richtigen Parameternamen vorherzusagen.

  • Tokenlimit: Keines

Bewertungskriterien

Bewertungskriterium Beschreibung
Übereinstimmungsverhältnis von Parametern Das Verhältnis zwischen der Anzahl der vorhergesagten Parameter, die mit den Parameternamen des Referenztoolaufrufs übereinstimmen, und der Gesamtzahl der Parameter.

Eingabeparameter für Messwerte

Eingabeparameter Beschreibung
prediction Die Ausgabe des Kandidatenmodells, ein JSON-serialisierter String, der die Schlüssel content und tool_calls enthält. Der Wert content ist der Textausgang des Modells. Der Wert tool_call ist ein JSON-serialisierter String einer Liste von Toolaufrufen. Hier ein Beispiel:

{"content": "", "tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference Die Ground-Truth-Referenzmodellvorhersage, die dem Format von prediction entspricht.

Ausgabebewertungen

Wert Beschreibung
Eine Gleitkommazahl im Bereich [0,1] Je höher der Wert für 1 ist, desto mehr Parameter stimmen mit den Namen der reference-Parameter überein.

Übereinstimmung des Parameter-KV

Der Messwert tool_parameter_kv_match beschreibt die Fähigkeit des Modells, einen Toolaufruf mit den richtigen Parameternamen und Schlüsselwerten vorherzusagen.

  • Tokenlimit: Keines

Bewertungskriterien

Bewertungskriterium Beschreibung
Übereinstimmungsverhältnis von Parametern Das Verhältnis zwischen der Anzahl der vorhergesagten Parameter, die sowohl mit den Parameternamen als auch mit den Werten des Referenztoolaufrufs übereinstimmen, und der Gesamtzahl der Parameter.

Eingabeparameter für Messwerte

Eingabeparameter Beschreibung
prediction Die Ausgabe des Kandidatenmodells, ein JSON-serialisierter String, der die Schlüssel content und tool_calls enthält. Der Wert content ist der Textausgang des Modells. Der Wert tool_call ist ein JSON-serialisierter String einer Liste von Toolaufrufen. Hier ein Beispiel:

{"content": "", "tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference Die Referenzvorhersage für die Ground Truth, die dem Format von prediction entspricht.

Ausgabebewertungen

Wert Beschreibung
Eine Gleitkommazahl im Bereich [0,1] Je höher der Wert für 1 ist, desto mehr Parameter stimmen mit den Namen und Werten der reference-Parameter überein.

Im Bewertungsdienst für generative KI können Sie berechnungsbasierte Messwerte über das Vertex AI SDK for Python verwenden.

Referenzqualität der Bewertung für generative Aufgaben

Beachten Sie bei der Bewertung der Ausgabe von Modellen mit generativer KI, dass der Bewertungsprozess von Natur aus subjektiv ist und die Qualität der Bewertung je nach Aufgabe und Bewertungskriterien variieren kann. Diese Subjektivität gilt auch für menschliche Prüfer. Weitere Informationen zu den Herausforderungen bei der einheitlichen Bewertung von generativen KI-Modellen finden Sie unter LLM-as-a-Judge mit MT-Bench und Chatbot Arena bewerten und Aus menschlichem Feedback lernen, um zu resümieren.

Nächste Schritte