Details zu verwalteten rubrikbasierten Messwerten

Auf dieser Seite finden Sie eine vollständige Liste der verwalteten rubrikbasierten Messwerte, die vom Gen AI Evaluation Service angeboten werden und die Sie im GenAI-Client im Vertex AI SDK verwenden können.

Weitere Informationen zur testorientierten Auswertung finden Sie unter Auswertungsstatistiken definieren.

Übersicht

Der Gen AI Evaluation Service bietet eine Liste von verwalteten rubrikbasierten Messwerten für das testgesteuerte Bewertungs-Framework:

  • Bei Messwerten mit adaptiven Rubriken ist in den meisten Fällen sowohl der Workflow für die Rubrikgenerierung für jeden Prompt als auch die Rubrikvalidierung enthalten. Sie können sie bei Bedarf auch separat ausführen. Weitere Informationen finden Sie unter Bewertung ausführen.

  • Für Messwerte mit statischen Rubriken werden keine Rubriken pro Prompt generiert. Weitere Informationen zu den beabsichtigten Ausgaben finden Sie unter Messwertdetails.

Jeder verwaltete rubrikbasierte Messwert hat eine Versionsnummer. Für den Messwert wird standardmäßig die neueste Version verwendet. Sie können ihn aber bei Bedarf an eine bestimmte Version anpinnen:

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

Abwärtskompatibilität

Auf die punktweisen Messwerte für Messwerte, die als Messwert-Promptvorlagen angeboten werden, können Sie weiterhin über den GenAI-Client im Vertex AI SDK zugreifen. Paarweise Messwerte werden vom GenAI-Client im Vertex AI SDK nicht unterstützt. Informationen zum Vergleichen von zwei Modellen in derselben Bewertung finden Sie unter Bewertung ausführen.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

Details zu verwalteten Messwerten

In diesem Abschnitt werden verwaltete Messwerte mit Details wie Typ, erforderliche Eingaben und erwartete Ausgabe aufgeführt:

Allgemeine Qualität

Aktuelle Version general_quality_v1
Typ Adaptive Rubriken
Beschreibung Ein umfassender adaptiver Rubrik-Messwert, mit dem die Gesamtqualität der Antwort eines Modells bewertet wird. Es werden automatisch eine Vielzahl von Kriterien basierend auf dem Inhalt des Prompts generiert und bewertet. Dies ist der empfohlene Ausgangspunkt für die meisten Auswertungen.
Zugriff im SDK types.RubricMetric.GENERAL_QUALITY
Eingabe
  • prompt
  • response
  • (Optional) rubric_groups
Wenn Sie bereits Rubriken generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe
  • score
  • rubrics und das entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 6 Aufrufe von Gemini 2.5 Flash

Textqualität

Aktuelle Version text_quality_v1
Typ Adaptive Rubriken
Beschreibung Ein gezielter adaptiver Rubrik-Messwert, der speziell die sprachliche Qualität der Antwort bewertet. Dabei werden Aspekte wie Sprachkompetenz, Kohärenz und Grammatik berücksichtigt.
Zugriff im SDK types.RubricMetric.TEXT_QUALITY
Eingabe
  • prompt
  • response
  • (Optional) rubric_groups
Wenn Sie bereits Bewertungsschemas generiert haben, können Sie diese direkt für die Bewertung verwenden.
Ausgabe
  • score
  • rubrics und das entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 6 Aufrufe von Gemini 2.5 Flash

Anweisung folgend

Aktuelle Version instruction_following_v1
Typ Adaptive Rubriken
Beschreibung Ein zielgerichteter adaptiver Rubrik-Messwert, der misst, wie gut die Antwort die spezifischen Einschränkungen und Anweisungen im Prompt einhält.
Zugriff im SDK types.RubricMetric.INSTRUCTION_FOLLOWING
Eingabe
  • prompt
  • response
  • (Optional) rubric_groups
Wenn Sie bereits Bewertungsschemas generiert haben, können Sie diese direkt zur Bewertung bereitstellen.
Ausgabe
  • score (Bestehensrate)
  • rubrics und das entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 6 Aufrufe von Gemini 2.5 Flash

Fundierung

Aktuelle Version grounding_v1
Typ Statische Bewertungsschemas
Beschreibung Ein punktebasierter Messwert, mit dem die Faktizität und Konsistenz geprüft werden. Es wird geprüft, ob die Antwort des Modells auf dem Kontext basiert.
Zugriff im SDK types.RubricMetric.GROUNDING
Eingabe
  • prompt
  • response
  • context
Ausgabe
  • score
  • explanation
Der Wert liegt im Bereich von 0-1 und gibt das Verhältnis von Behauptungen an, die als supported oder no_rad gekennzeichnet sind (keine faktischen Quellenangaben erforderlich, z. B. Begrüßungen, Fragen oder Haftungsausschlüsse), zum Eingabeaufforderung an.
Die Erklärung enthält Gruppierungen von Satz, Label, Begründung und Auszug aus dem Kontext.
Anzahl der LLM-Aufrufe 1 Aufruf von Gemini 2.5 Flash

Sicherheit

Aktuelle Version safety_v1
Typ Statische Bewertungsschemas
Beschreibung Ein auf einem Wert basierender Messwert, der bewertet, ob die Antwort des Modells gegen eine oder mehrere der folgenden Richtlinien verstoßen hat:
  • Personenidentifizierbare Informationen und demografische Daten
  • Hassrede
  • Gefährliche Inhalte
  • Belästigung
  • sexuell explizit
Zugriff im SDK types.RubricMetric.SAFETY
Eingabe
  • prompt
  • response
Ausgabe
  • score
  • explanation
Für die Punktzahl ist 0 unsicher und 1 sicher.
Das Erklärungsfeld enthält die Richtlinien, gegen die verstoßen wurde.
Anzahl der LLM-Aufrufe 10 Aufrufe von Gemini 2.5 Flash

Allgemeine Qualität von Multi-Turn-Unterhaltungen

Aktuelle Version multi_turn_general_quality_v1
Typ Adaptive Rubriken
Beschreibung Eine adaptive Rubrik-Messwert, mit dem die Gesamtqualität der Antwort eines Modells im Kontext eines Dialogs mit mehreren Zügen bewertet wird.
Zugriff im SDK types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Eingabe
  • prompt mit Multi-Turn-Unterhaltungen
  • response
  • (Optional) rubric_groups
Wenn Sie bereits Bewertungsschemas generiert haben, können Sie diese direkt für die Bewertung verwenden.
Ausgabe
  • score
  • Rubriken und entsprechende Ergebnisse
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 6 Aufrufe von Gemini 2.5 Flash

Textqualität in mehreren Schritten

Aktuelle Version multi_turn_text_quality_v1
Typ Adaptive Rubriken
Beschreibung Eine adaptive Rubrik-Messwert, mit dem die Textqualität der Antwort eines Modells im Kontext eines Dialogs über mehrere Themen bewertet wird.
Zugriff im SDK types.RubricMetric.TEXT_QUALITY
Eingabe
  • prompt mit Multi-Turn-Unterhaltungen
  • response
  • (Optional) rubric_groups
Wenn Sie bereits Bewertungsschemas generiert haben, können Sie diese direkt für die Bewertung verwenden.
Ausgabe
  • score
  • rubrics und das entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 6 Aufrufe von Gemini 2.5 Flash

Übereinstimmung der endgültigen Antwort des Kundenservicemitarbeiters

Aktuelle Version final_response_match_v2
Typ Statische Bewertungsschemas
Beschreibung Ein Messwert, mit dem die Qualität der endgültigen Antwort eines KI-Agents bewertet wird, indem sie mit einer bereitgestellten Referenzantwort (Ground Truth) verglichen wird.
Zugriff im SDK types.RubricMetric.FINAL_RESPONSE_MATCH
Eingabe
  • prompt
  • response
  • reference
Ausgabe Punktzahl
  • 1: Gültige Antwort, die mit der Referenz übereinstimmt.
  • 0: Ungültige Antwort, die nicht mit der Referenz übereinstimmt.
Erläuterung
Anzahl der LLM-Aufrufe 5 Aufrufe von Gemini 2.5 Flash

Referenzfreie endgültige Antwort des Kundenservicemitarbeiters

Aktuelle Version final_response_reference_free_v1
Typ Adaptive Rubriken
Beschreibung Ein adaptiver Rubrik-Messwert, mit dem die Qualität der endgültigen Antwort eines KI-Agents ohne Referenzantwort bewertet wird.
Sie müssen Rubriken für diesen Messwert angeben, da keine automatisch generierten Rubriken unterstützt werden.
Zugriff im SDK types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Eingabe
  • prompt
  • response
  • rubric_groups
Ausgabe
  • score
  • rubrics und das entsprechende verdicts
Die Punktzahl gibt die Bestehensrate der Antwort basierend auf den Rubriken an.
Anzahl der LLM-Aufrufe 5 Aufrufe von Gemini 2.5 Flash

Nächste Schritte