Der erste Schritt bei der Bewertung Ihrer generativen Modelle oder Anwendungen besteht darin, Ihr Bewertungsziel zu ermitteln und Ihre Bewertungsmesswerte zu definieren. Auf dieser Seite finden Sie einen Überblick über Konzepte im Zusammenhang mit der Definition von Bewertungsmesswerten für Ihren Anwendungsfall.
Übersicht
Mithilfe von Modellen für generative KI lassen sich Anwendungen für eine Vielzahl von Aufgaben erstellen, z. B. für die Zusammenfassung von Nachrichtenartikeln, die Beantwortung von Kundenanfragen oder die Unterstützung beim Schreiben von Code. Mit dem Gen AI-Bewertungsdienst in Vertex AI können Sie jedes Modell mit erklärbaren Messwerten bewerten.
Angenommen, Sie entwickeln eine Anwendung, mit der Artikel zusammengefasst werden. Um die Leistung Ihrer Anwendung bei dieser bestimmten Aufgabe zu bewerten, sollten Sie die Kriterien berücksichtigen, die Sie messen möchten, und die Messwerte, mit denen Sie sie bewerten möchten:
Kriterien: Einzelne oder mehrere Dimensionen, die Sie auswerten möchten, z. B.
conciseness
,relevance
,correctness
oderappropriate choice of words
.Messwerte: Ein einzelner Wert, mit dem die Modellausgabe anhand von Kriterien bewertet wird.
Der Gen AI Evaluation Service bietet zwei Haupttypen von Messwerten:
Modellbasierte Messwerte: Mit unseren modellbasierten Messwerten wird Ihr Modell mit einem Referenzmodell verglichen. Das Bewertungsmodell für die meisten Anwendungsfälle ist Gemini. Für Übersetzungsanwendungen können Sie aber auch Modelle wie MetricX oder COMET verwenden.
Sie können modellbasierte Messwerte paarweise oder punktbasiert messen:
Punktbasierte Messwerte: Das Bewertungsmodell bewertet die Ausgabe des Kandidatenmodells anhand der Bewertungskriterien. Die Bewertung könnte beispielsweise zwischen 0 und 5 liegen, wobei 0 bedeutet, dass die Antwort nicht den Kriterien entspricht, und 5 bedeutet, dass die Antwort den Kriterien gut entspricht.
Paarweise Messwerte: Das Bewertungsmodell vergleicht die Antworten der beiden Modelle und wählt die bessere aus. Dieser Wert wird häufig verwendet, um ein Kandidatenmodell mit dem Referenzmodell zu vergleichen. Paarweise Messwerte werden nur mit Gemini als Bewertungsmodell unterstützt.
Berechnungsbasierte Messwerte: Diese Messwerte werden anhand mathematischer Formeln berechnet, um die Ausgabe des Modells mit einer Ground Truth oder Referenz zu vergleichen. Zu den gängigen berechnungsbasierten Messwerten gehören ROUGE und BLEU.
Sie können berechnungsbasierte Messwerte einzeln oder zusammen mit modellbasierten Messwerten verwenden. Anhand der folgenden Tabelle können Sie entscheiden, wann Sie modellbasierte oder berechnungsbasierte Messwerte verwenden sollten:
Bewertungsansatz | Daten | Kosten und Geschwindigkeit | |
---|---|---|---|
Modellbasierte Messwerte | Bewertungsmodell verwenden, um die Leistung anhand beschreibender Bewertungskriterien zu bewerten | Ground Truth ist optional | Etwas teurer und langsamer |
Berechnungsbasierte Messwerte | Leistung mithilfe mathematischer Formeln bewerten | In der Regel ist eine Ground Truth erforderlich. | Kostengünstig und schnell |
Weitere Informationen finden Sie unter Dataset vorbereiten und Bewertung ausführen.
Modellbasierte Messwerte definieren
Bei der modellbasierten Bewertung wird ein Modell für maschinelles Lernen als Bewertungsmodell verwendet, um die Ausgabe des Kandidatenmodells zu bewerten.
Eigene Bewertungsmodelle von Google wie Gemini werden mit menschlichen Prüfern kalibriert, um ihre Qualität zu gewährleisten. Sie werden verwaltet und sind sofort einsatzbereit. Der Ablauf der modellbasierten Bewertung hängt von den von Ihnen angegebenen Bewertungsmesswerten ab.
Die modellbasierte Bewertung folgt diesem Prozess:
Datenvorbereitung: Sie stellen Bewertungsdaten in Form von Eingabeaufforderungen bereit. Die Kandidatenmodelle erhalten die Prompts und generieren entsprechende Antworten.
Bewertung: Die Bewertungsmesswerte und die generierten Antworten werden an das Bewertungsmodell gesendet. Beim Bewertungsmodell wird jede Antwort einzeln bewertet und eine zeilenbasierte Bewertung vorgenommen.
Aggregation und Erklärung: Der Gen AI Evaluation Service aggregiert diese einzelnen Bewertungen zu einer Gesamtpunktzahl. Die Ausgabe enthält außerdem Chain-of-Thought-Erläuterungen für jedes Urteil, in denen die Gründe für die Auswahl erläutert werden.
Der Gen AI-Bewertungsdienst bietet die folgenden Optionen zum Einrichten Ihrer modellbasierten Messwerte mit dem Vertex AI SDK:
Option | Beschreibung | Optimal für |
---|---|---|
Vorhandenes Beispiel verwenden | Verwenden Sie eine vordefinierte Vorlage für Messwertvorschläge, um loszulegen. | Gängige Anwendungsfälle, zeitsparend |
Messwerte mithilfe unserer Vorlagenoberfläche definieren | Sie erhalten Unterstützung bei der Definition Ihrer Messwerte. Die Vorlagenoberfläche bietet Struktur und Vorschläge. | Anpassung mit Support |
Messwerte von Grund auf neu definieren | Sie haben die volle Kontrolle über Ihre Messwertdefinitionen. | Ideal für sehr spezifische Anwendungsfälle. Erfordert mehr technisches Fachwissen und Zeitaufwand. |
Sie könnten beispielsweise eine generative KI-Anwendung entwickeln, die flüssige und unterhaltsame Antworten zurückgibt. Für diese Anwendung können Sie über die Vorlagenoberfläche zwei Bewertungskriterien definieren:
Fluency: Die Sätze fließen flüssig und es werden unpassende Formulierungen oder Satzbaufehler vermieden. Ideen und Sätze sind logisch miteinander verbunden und es werden bei Bedarf effektiv Übergänge verwendet.
Unterhaltung: Kurze, amüsante Texte mit Emojis, Ausrufen und Fragen, die schnelle und spontane Kommunikation und Ablenkung vermitteln.
Um diese beiden Kriterien in einen Messwert umzuwandeln, benötigen Sie eine Gesamtbewertung von -1 bis 1, die custom_text_quality
genannt wird. Sie können einen Messwert so definieren:
# Define a pointwise metric with two criteria: Fluency and Entertaining.
custom_text_quality = PointwiseMetric(
metric="custom_text_quality",
metric_prompt_template=PointwiseMetricPromptTemplate(
criteria={
"fluency": (
"Sentences flow smoothly and are easy to read, avoiding awkward"
" phrasing or run-on sentences. Ideas and sentences connect"
" logically, using transitions effectively where needed."
),
"entertaining": (
"Short, amusing text that incorporates emojis, exclamations and"
" questions to convey quick and spontaneous communication and"
" diversion."
),
},
rating_rubric={
"1": "The response performs well on both criteria.",
"0": "The response is somewhat aligned with both criteria",
"-1": "The response falls short on both criteria",
},
),
)
Eine vollständige Liste der Vorlagen für Messwertprompts finden Sie unter Vorlagen für Messwertprompts zur Bewertung.
Übersetzungsmodelle bewerten
Der Gen AI Evaluation Service bietet die folgenden Bewertungsmesswerte für Übersetzungsaufgaben:
MetricX und COMET sind punktbasierte, modellbasierte Messwerte, die für Übersetzungsaufgaben trainiert wurden. Sie können die Qualität und Genauigkeit der Übersetzungsmodellergebnisse für Ihre Inhalte bewerten, unabhängig davon, ob es sich um NMT-, TranslationLLM- oder Gemini-Modelle handelt.
Sie können Gemini auch als Bewertungsmodell verwenden, um Ihr Modell in Kombination mit MetricX, COMET oder BLEU auf Sprachfluss, Kohäsion, Ausführlichkeit und Textqualität zu bewerten.
MetricX ist ein von Google entwickelter fehlerbasierter Messwert, der einen Gleitkommawert zwischen 0 und 25 vorhersagt, der die Qualität einer Übersetzung darstellt. MetricX ist sowohl als referenzbasierte als auch als referenzfreie Methode (QE) verfügbar. Je niedriger der Wert, desto besser, da es weniger Fehler gibt.
COMET verwendet einen referenzbasierten Regressionsansatz, der Bewertungen von 0 bis 1 liefert, wobei 1 für eine perfekte Übersetzung steht.
BLEU (Bilingual Evaluation Understudy) ist ein berechnungsbasierter Messwert. Der BLEU-Wert gibt an, wie ähnlich der Kandidatentext dem Referenztext ist. Je näher ein BLEU-Score-Wert an 1 liegt, desto näher ist die Übersetzung dem Referenztext.
BLEU-Werte werden nicht empfohlen, um verschiedene Korpora und Sprachen zu vergleichen. Ein BLEU-Wert von 50 für eine Übersetzung vom Englischen ins Deutsche ist beispielsweise nicht mit einem BLEU-Wert von 50 für eine Übersetzung vom Japanischen ins Englische vergleichbar. Viele Übersetzungsexperten haben zu modellbasierten Messmethoden gewechselt, die eine höhere Korrelation mit menschlichen Bewertungen aufweisen und Fehlerszenarien detaillierter identifizieren.
Weitere Informationen zum Ausführen von Bewertungen für Übersetzungsmodelle finden Sie unter Übersetzungsmodell bewerten.
Zwischen punktweisen oder paarweisen Vergleichen wählen
Anhand der folgenden Tabelle können Sie entscheiden, wann Sie die punktweise oder paarweise Bewertung verwenden möchten:
Definition | Geeignet für | Beispielanwendungsfälle | |
---|---|---|---|
Punktweise Bewertung | Ein Modell bewerten und anhand der Kriterien Bewertungen generieren |
|
|
Paarweise Bewertung | Zwei Modelle miteinander vergleichen und anhand der Kriterien eine Präferenz generieren |
|
|
Berechnungsbasierte Messwerte
Berechnungsbasierte Messwerte vergleichen, ob die von LLM generierten Ergebnisse mit einem Ground Truth-Dataset von Eingabe/Ausgabe-Paaren konsistent sind. Die am häufigsten verwendeten Messwerte können in die folgenden Gruppen unterteilt werden:
- Lexikonbasierte Messwerte: Mithilfe von Mathematik werden die Stringähnlichkeiten zwischen LLM-generierten Ergebnissen und der Referenzdatenbank berechnet, z. B.
Exact Match
undROUGE
. - Zählbasierte Messwerte: Hier wird die Anzahl der Zeilen zusammengefasst, die bestimmte Ground-Truth-Labels wie
F1-score
,Accuracy
undTool Name Match
treffen oder verfehlen. - Einbettungs-basierte Messwerte: Berechnen Sie den Abstand zwischen den von LLM generierten Ergebnissen und der Ground Truth im Einbettungsraum, um den Grad der Ähnlichkeit zu ermitteln.
Allgemeine Textgenerierung
Anhand der folgenden Messwerte können Sie die Fähigkeit des Modells bewerten, dafür zu sorgen, dass die Antworten für Ihre Nutzer nützlich, sicher und effektiv sind.
Genaue Übereinstimmung
Mit dem Messwert exact_match
wird berechnet, ob eine Modellantwort genau mit einer Referenz übereinstimmt.
- Tokenlimit: Keines
Bewertungskriterien
Nicht zutreffend.
Eingabeparameter für Messwerte
Eingabeparameter | Beschreibung |
---|---|
response |
Die LLM-Antwort. |
reference |
Die goldene LLM-Antwort als Referenz. |
Ausgabebewertungen
Wert | Beschreibung |
---|---|
0 | Keine Übereinstimmung |
1 | Übereinstimmend |
BLEU
Der Messwert bleu
(BiLingual Evaluation Understudy) enthält das Ergebnis eines Algorithmus zur Bewertung der Qualität der Antwort, die aus einer natürlichen Sprache in eine andere natürliche Sprache übersetzt wurde. Die Qualität der Antwort wird als Übereinstimmung zwischen einem response
-Parameter und seinem reference
-Parameter betrachtet.
- Tokenlimit: Keines
Bewertungskriterien
Nicht zutreffend.
Eingabeparameter für Messwerte
Eingabeparameter | Beschreibung |
---|---|
response |
Die LLM-Antwort. |
reference |
Die goldene LLM-Antwort als Referenz. |
Ausgabebewertungen
Wert | Beschreibung |
---|---|
Eine Gleitkommazahl im Bereich [0,1] | Je höher die Punktzahl, desto besser die Übersetzung. Eine Punktzahl von 1 entspricht einer perfekten Übereinstimmung mit der reference . |
ROUGE
Mit dem Messwert ROUGE
wird der angegebene response
-Parameter mit einem reference
-Parameter verglichen.
Für alle rouge
-Messwerte wird der F1-Wert zurückgegeben. rouge-l-sum
wird standardmäßig berechnet. Sie können jedoch die gewünschte rouge
-Variante angeben.
- Tokenlimit: Keines
Bewertungskriterien
Nicht zutreffend
Eingabeparameter für Messwerte
Eingabeparameter | Beschreibung |
---|---|
response |
Die LLM-Antwort. |
reference |
Die goldene LLM-Antwort als Referenz. |
Ausgabebewertungen
Wert | Beschreibung |
---|---|
Eine Gleitkommazahl im Bereich [0,1] | Je näher der Wert an 0 liegt, desto geringer ist die Ähnlichkeit zwischen response und reference . Je näher der Wert an 1 liegt, desto stärker ist die Ähnlichkeit zwischen response und reference . |
Toolnutzung und Funktionsaufrufe
Anhand der folgenden Messwerte können Sie die Fähigkeit des Modells bewerten, einen gültigen Tool-Aufruf (Funktion) vorherzusagen.
Aufruf gültig
Der Messwert tool_call_valid
beschreibt die Fähigkeit des Modells, einen gültigen Toolaufruf vorherzusagen. Nur der erste Toolaufruf wird geprüft.
- Tokenlimit: Keines
Bewertungskriterien
Bewertungskriterium | Beschreibung |
---|---|
Gültigkeit | Die Ausgabe des Modells enthält einen gültigen Toolaufruf. |
Formatierung | Ein JSON-Wörterbuch enthält die Felder name und arguments . |
Eingabeparameter für Messwerte
Eingabeparameter | Beschreibung |
---|---|
prediction |
Die Ausgabe des Kandidatenmodells, ein JSON-serialisierter String, der die Schlüssel content und tool_calls enthält. Der Wert content ist der Textausgang des Modells. Der Wert tool_calls ist ein JSON-serialisierter String einer Liste von Toolaufrufen. Hier ein Beispiel:{"content": "", "tool_calls": [{"name":
"book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning
Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA",
"showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]} |
reference |
Die Referenzvorhersage für die Ground Truth, die dem Format von prediction entspricht. |
Ausgabebewertungen
Wert | Beschreibung |
---|---|
0 | Ungültiger Toolaufruf |
1 | Gültiger Toolaufruf |
Übereinstimmende Namen
Der Messwert tool_name_match
beschreibt die Fähigkeit des Modells, einen Toolaufruf mit dem richtigen Toolnamen vorherzusagen. Nur der erste Toolaufruf wird geprüft.
- Tokenlimit: Keines
Bewertungskriterien
Bewertungskriterium | Beschreibung |
---|---|
Namensabgleich | Der vom Modell vorhergesagte Toolaufruf stimmt mit dem Namen des Referenz-Toolaufrufs überein. |
Eingabeparameter für Messwerte
Eingabeparameter | Beschreibung |
---|---|
prediction |
Die Ausgabe des Kandidatenmodells, ein JSON-serialisierter String, der die Schlüssel content und tool_calls enthält. Der Wert content ist der Textausgang des Modells. Der Wert tool_call ist ein JSON-serialisierter String einer Liste von Toolaufrufen. Hier ein Beispiel:{"content": "","tool_calls": [{"name": "book_tickets", "arguments":
{"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal
Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date":
"2024-03-30","num_tix": "2"}}]} |
reference |
Die Referenzvorhersage mit demselben Format wie die prediction . |
Ausgabebewertungen
Wert | Beschreibung |
---|---|
0 | Name des Toolaufrufs entspricht nicht der Referenz. |
1 | Der Name des Toolaufrufs stimmt mit der Referenz überein. |
Übereinstimmung des Parameterschlüssels
Der Messwert tool_parameter_key_match
beschreibt die Fähigkeit des Modells, einen Toolaufruf mit den richtigen Parameternamen vorherzusagen.
- Tokenlimit: Keines
Bewertungskriterien
Bewertungskriterium | Beschreibung |
---|---|
Übereinstimmungsverhältnis von Parametern | Das Verhältnis zwischen der Anzahl der vorhergesagten Parameter, die mit den Parameternamen des Referenztoolaufrufs übereinstimmen, und der Gesamtzahl der Parameter. |
Eingabeparameter für Messwerte
Eingabeparameter | Beschreibung |
---|---|
prediction |
Die Ausgabe des Kandidatenmodells, ein JSON-serialisierter String, der die Schlüssel content und tool_calls enthält. Der Wert content ist der Textausgang des Modells. Der Wert tool_call ist ein JSON-serialisierter String einer Liste von Toolaufrufen. Hier ein Beispiel:{"content": "", "tool_calls": [{"name": "book_tickets", "arguments":
{"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal
Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date":
"2024-03-30","num_tix": "2"}}]} |
reference |
Die Ground-Truth-Referenzmodellvorhersage, die dem Format von prediction entspricht. |
Ausgabebewertungen
Wert | Beschreibung |
---|---|
Eine Gleitkommazahl im Bereich [0,1] | Je höher der Wert für 1 ist, desto mehr Parameter stimmen mit den Namen der reference -Parameter überein. |
Übereinstimmung des Parameter-KV
Der Messwert tool_parameter_kv_match
beschreibt die Fähigkeit des Modells, einen Toolaufruf mit den richtigen Parameternamen und Schlüsselwerten vorherzusagen.
- Tokenlimit: Keines
Bewertungskriterien
Bewertungskriterium | Beschreibung |
---|---|
Übereinstimmungsverhältnis von Parametern | Das Verhältnis zwischen der Anzahl der vorhergesagten Parameter, die sowohl mit den Parameternamen als auch mit den Werten des Referenztoolaufrufs übereinstimmen, und der Gesamtzahl der Parameter. |
Eingabeparameter für Messwerte
Eingabeparameter | Beschreibung |
---|---|
prediction |
Die Ausgabe des Kandidatenmodells, ein JSON-serialisierter String, der die Schlüssel content und tool_calls enthält. Der Wert content ist der Textausgang des Modells. Der Wert tool_call ist ein JSON-serialisierter String einer Liste von Toolaufrufen. Hier ein Beispiel:{"content": "", "tool_calls": [{"name": "book_tickets", "arguments":
{"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal
Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date":
"2024-03-30","num_tix": "2"}}]} |
reference |
Die Referenzvorhersage für die Ground Truth, die dem Format von prediction entspricht. |
Ausgabebewertungen
Wert | Beschreibung |
---|---|
Eine Gleitkommazahl im Bereich [0,1] | Je höher der Wert für 1 ist, desto mehr Parameter stimmen mit den Namen und Werten der reference -Parameter überein. |
Im Bewertungsdienst für generative KI können Sie berechnungsbasierte Messwerte über das Vertex AI SDK for Python verwenden.
Referenzqualität der Bewertung für generative Aufgaben
Beachten Sie bei der Bewertung der Ausgabe von Modellen mit generativer KI, dass der Bewertungsprozess von Natur aus subjektiv ist und die Qualität der Bewertung je nach Aufgabe und Bewertungskriterien variieren kann. Diese Subjektivität gilt auch für menschliche Prüfer. Weitere Informationen zu den Herausforderungen bei der einheitlichen Bewertung von generativen KI-Modellen finden Sie unter LLM-as-a-Judge mit MT-Bench und Chatbot Arena bewerten und Aus menschlichem Feedback lernen, um zu resümieren.
Nächste Schritte
Probieren Sie ein Bewertungs-Beispielnotebook aus.