Auf dieser Seite finden Sie eine vollständige Liste der verwalteten rubrikbasierten Messwerte, die vom Gen AI Evaluation Service angeboten werden und die Sie im GenAI-Client im Vertex AI SDK verwenden können.
Weitere Informationen zur testorientierten Auswertung finden Sie unter Auswertungsstatistiken definieren.
Übersicht
Der Gen AI Evaluation Service bietet eine Liste von verwalteten rubrikbasierten Messwerten für das testgesteuerte Bewertungs-Framework:
Bei Messwerten mit adaptiven Rubriken ist in den meisten Fällen sowohl der Workflow für die Rubrikgenerierung für jeden Prompt als auch die Rubrikvalidierung enthalten. Sie können sie bei Bedarf auch separat ausführen. Weitere Informationen finden Sie unter Bewertung ausführen.
Für Messwerte mit statischen Rubriken werden keine Rubriken pro Prompt generiert. Weitere Informationen zu den beabsichtigten Ausgaben finden Sie unter Messwertdetails.
Jeder verwaltete rubrikbasierte Messwert hat eine Versionsnummer. Für den Messwert wird standardmäßig die neueste Version verwendet. Sie können ihn aber bei Bedarf an eine bestimmte Version anpinnen:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
Abwärtskompatibilität
Auf die punktweisen Messwerte für Messwerte, die als Messwert-Promptvorlagen angeboten werden, können Sie weiterhin über den GenAI-Client im Vertex AI SDK zugreifen. Paarweise Messwerte werden vom GenAI-Client im Vertex AI SDK nicht unterstützt. Informationen zum Vergleichen von zwei Modellen in derselben Bewertung finden Sie unter Bewertung ausführen.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
Details zu verwalteten Messwerten
In diesem Abschnitt werden verwaltete Messwerte mit Details wie Typ, erforderliche Eingaben und erwartete Ausgabe aufgeführt:
- Allgemeine Qualität
- Textqualität
- Befolgung von Anweisungen
- Fundierung
- Sicherheit
- Allgemeine Qualität in mehreren Schritten
- Qualität von Texten in mehreren Schritten
- Übereinstimmung der endgültigen Antwort des Kundenserviceteams
- Referenzfreie endgültige Antwort des Kundenservicemitarbeiters
Allgemeine Qualität
Aktuelle Version | general_quality_v1 |
Typ | Adaptive Rubriken |
Beschreibung | Ein umfassender adaptiver Rubrik-Messwert, mit dem die Gesamtqualität der Antwort eines Modells bewertet wird. Es werden automatisch eine Vielzahl von Kriterien basierend auf dem Inhalt des Prompts generiert und bewertet. Dies ist der empfohlene Ausgangspunkt für die meisten Auswertungen. |
Zugriff im SDK | types.RubricMetric.GENERAL_QUALITY |
Eingabe |
|
Ausgabe |
|
Anzahl der LLM-Aufrufe | 6 Aufrufe von Gemini 2.5 Flash |
Textqualität
Aktuelle Version | text_quality_v1 |
Typ | Adaptive Rubriken |
Beschreibung | Ein gezielter adaptiver Rubrik-Messwert, der speziell die sprachliche Qualität der Antwort bewertet. Dabei werden Aspekte wie Sprachkompetenz, Kohärenz und Grammatik berücksichtigt. |
Zugriff im SDK | types.RubricMetric.TEXT_QUALITY |
Eingabe |
|
Ausgabe |
|
Anzahl der LLM-Aufrufe | 6 Aufrufe von Gemini 2.5 Flash |
Anweisung folgend
Aktuelle Version | instruction_following_v1 |
Typ | Adaptive Rubriken |
Beschreibung | Ein zielgerichteter adaptiver Rubrik-Messwert, der misst, wie gut die Antwort die spezifischen Einschränkungen und Anweisungen im Prompt einhält. |
Zugriff im SDK | types.RubricMetric.INSTRUCTION_FOLLOWING |
Eingabe |
|
Ausgabe |
|
Anzahl der LLM-Aufrufe | 6 Aufrufe von Gemini 2.5 Flash |
Fundierung
Aktuelle Version | grounding_v1 |
Typ | Statische Bewertungsschemas |
Beschreibung | Ein punktebasierter Messwert, mit dem die Faktizität und Konsistenz geprüft werden. Es wird geprüft, ob die Antwort des Modells auf dem Kontext basiert. |
Zugriff im SDK | types.RubricMetric.GROUNDING |
Eingabe |
|
Ausgabe |
0-1 und gibt das Verhältnis von Behauptungen an, die als supported oder no_rad gekennzeichnet sind (keine faktischen Quellenangaben erforderlich, z. B. Begrüßungen, Fragen oder Haftungsausschlüsse), zum Eingabeaufforderung an.
Die Erklärung enthält Gruppierungen von Satz, Label, Begründung und Auszug aus dem Kontext. |
Anzahl der LLM-Aufrufe | 1 Aufruf von Gemini 2.5 Flash |
Sicherheit
Aktuelle Version | safety_v1 |
Typ | Statische Bewertungsschemas |
Beschreibung |
Ein auf einem Wert basierender Messwert, der bewertet, ob die Antwort des Modells gegen eine oder mehrere der folgenden Richtlinien verstoßen hat:
|
Zugriff im SDK | types.RubricMetric.SAFETY |
Eingabe |
|
Ausgabe |
0 unsicher und 1 sicher.
Das Erklärungsfeld enthält die Richtlinien, gegen die verstoßen wurde. |
Anzahl der LLM-Aufrufe | 10 Aufrufe von Gemini 2.5 Flash |
Allgemeine Qualität von Multi-Turn-Unterhaltungen
Aktuelle Version | multi_turn_general_quality_v1 |
Typ | Adaptive Rubriken |
Beschreibung | Eine adaptive Rubrik-Messwert, mit dem die Gesamtqualität der Antwort eines Modells im Kontext eines Dialogs mit mehreren Zügen bewertet wird. |
Zugriff im SDK | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
Eingabe |
|
Ausgabe |
|
Anzahl der LLM-Aufrufe | 6 Aufrufe von Gemini 2.5 Flash |
Textqualität in mehreren Schritten
Aktuelle Version | multi_turn_text_quality_v1 |
Typ | Adaptive Rubriken |
Beschreibung | Eine adaptive Rubrik-Messwert, mit dem die Textqualität der Antwort eines Modells im Kontext eines Dialogs über mehrere Themen bewertet wird. |
Zugriff im SDK | types.RubricMetric.TEXT_QUALITY |
Eingabe |
|
Ausgabe |
|
Anzahl der LLM-Aufrufe | 6 Aufrufe von Gemini 2.5 Flash |
Übereinstimmung der endgültigen Antwort des Kundenservicemitarbeiters
Aktuelle Version | final_response_match_v2 |
Typ | Statische Bewertungsschemas |
Beschreibung | Ein Messwert, mit dem die Qualität der endgültigen Antwort eines KI-Agents bewertet wird, indem sie mit einer bereitgestellten Referenzantwort (Ground Truth) verglichen wird. |
Zugriff im SDK | types.RubricMetric.FINAL_RESPONSE_MATCH |
Eingabe |
|
Ausgabe |
Punktzahl
|
Anzahl der LLM-Aufrufe | 5 Aufrufe von Gemini 2.5 Flash |
Referenzfreie endgültige Antwort des Kundenservicemitarbeiters
Aktuelle Version | final_response_reference_free_v1 |
Typ | Adaptive Rubriken |
Beschreibung | Ein adaptiver Rubrik-Messwert, mit dem die Qualität der endgültigen Antwort eines KI-Agents ohne Referenzantwort bewertet wird.
Sie müssen Rubriken für diesen Messwert angeben, da keine automatisch generierten Rubriken unterstützt werden. |
Zugriff im SDK | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
Eingabe |
|
Ausgabe |
|
Anzahl der LLM-Aufrufe | 5 Aufrufe von Gemini 2.5 Flash |