Mit dem Gen AI Evaluation Service können Sie Ihre Large Language Models (LLMs) anhand mehrerer Messwerte und Ihrer eigenen Kriterien bewerten. Sie können Eingaben zur Inferenzzeit, LLM-Antworten und zusätzliche Parameter angeben. Der Gen AI Evaluation Service gibt dann Messwerte zurück, die für die Bewertungsaufgabe spezifisch sind.
Zu den Messwerten gehören modellbasierte Messwerte wie PointwiseMetric
und PairwiseMetric
sowie In-Memory-berechnete Messwerte wie rouge
, bleu
und Tool-Funktionsaufruf-Messwerte.
PointwiseMetric
und PairwiseMetric
sind generische modellbasierte Messwerte, die Sie mit Ihren eigenen Kriterien anpassen können.
Da der Dienst die Vorhersageergebnisse direkt aus den Modellen als Eingabe nimmt, kann er sowohl Inferenz als auch anschließende Bewertung für alle von Vertex AI unterstützten Modelle durchführen.
Weitere Informationen zur Bewertung eines Modells finden Sie unter Übersicht über den Gen AI-Bewertungsdienst.
Beschränkungen
Die folgenden Einschränkungen gelten für den Bewertungsdienst:
- Bei Ihrem ersten Aufruf kann es zu einer Verzögerung bei der Übertragung an den Bewertungsdienst kommen.
- Für die meisten modellbasierten Messwerte wird das Kontingent für Gemini 1.5 Pro in Anspruch genommen, da der Gen AI Evaluation Service
gemini-1.5-pro
als zugrunde liegendes Bewertungsmodell verwendet, um diese modellbasierten Messwerte zu berechnen. - Für einige modellbasierte Messwerte wie MetricX und COMET werden andere Modelle für maschinelles Lernen verwendet. Sie beanspruchen daher kein Gemini 1.5 Pro-Kontingent.
Beispielsyntax
Syntax zum Senden eines Bewertungsaufrufs.
curl
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances \ -d '{ "contents": [{ ... }], "tools": [{ "function_declarations": [ { ... } ] }] }'
Python
import json from google import auth from google.api_core import exceptions from google.auth.transport import requests as google_auth_requests creds, _ = auth.default( scopes=['https://www.googleapis.com/auth/cloud-platform']) data = { ... } uri = f'https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances' result = google_auth_requests.AuthorizedSession(creds).post(uri, json=data) print(json.dumps(result.json(), indent=2))
Parameterliste
Parameter | |
---|---|
|
Optional: Eingabe, um zu beurteilen, ob die Vorhersage genau mit der Referenz übereinstimmt. |
|
Optional: Eingabe zum Berechnen des BLEU-Scores durch Vergleich der Vorhersage mit der Referenz. |
|
Optional: Eingabe zum Berechnen der |
|
Optional: Eingabe, um die Sprachbeherrschung einer einzelnen Antwort zu bewerten. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine kohärente, leicht verständliche Antwort zu geben. |
|
Optional: Eingabe, um das Sicherheitsniveau einer einzelnen Antwort zu bewerten. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, Informationen bereitzustellen oder zu referenzieren, die nur im Eingabetext enthalten sind. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine Anweisung vollständig auszuführen. |
|
Optional: Eingabe, um allgemein die Fähigkeit einer einzelnen Antwort zu bewerten, Text zusammenzufassen. |
|
Optional: Eingabe zum Vergleich der allgemeinen Qualität von Zusammenfassungen zweier Antworten. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine Zusammenfassung bereitzustellen, die die Details enthält, die erforderlich sind, um den ursprünglichen Text zu ersetzen. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine prägnante Zusammenfassung zu liefern. |
|
Optional: Eingabe zur Bewertung der allgemeinen Fähigkeit einer einzelnen Antwort zur Beantwortung von Fragen anhand eines als Referenz dienenden Textkörpers. |
|
Optional: Eingabe für den Vergleich der allgemeinen Fähigkeit zweier Antworten zur Beantwortung von Fragen anhand eines als Referenz dienenden Textkörpers. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, auf die Stellung einer Frage mit relevanten Informationen zu antworten. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, bei der Beantwortung einer Frage wichtige Details anzugeben. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine Frage richtig zu beantworten. |
|
Optional: Eingabe für eine allgemeine punktweise Bewertung. |
|
Optional: Eingabe für eine allgemeine paarweise Bewertung. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, einen gültigen Toolaufruf vorherzusagen. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, einen Toolaufruf mit dem richtigen Toolnamen vorherzusagen. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, einen Toolaufruf mit den richtigen Parameternamen vorherzusagen. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, einen Toolaufruf mit den richtigen Parameternamen und ‑werten vorherzusagen |
|
Optional: Eingabe, die mit COMET ausgewertet werden soll. |
|
Optional: Eingabe, die mit MetricX ausgewertet werden soll. |
ExactMatchInput
{ "exact_match_input": { "metric_spec": {}, "instances": [ { "prediction": string, "reference": string } ] } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort. |
|
Optional: Goldene LLM-Antwort als Referenz |
ExactMatchResults
{ "exact_match_results": { "exact_match_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
Bewertungsergebnisse pro Instanzeingabe. |
|
Eines der folgenden Betriebssysteme:
|
BleuInput
{ "bleu_input": { "metric_spec": { "use_effective_order": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Ob n-Gramm-Reihenfolgen ohne Übereinstimmung berücksichtigt werden sollen. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort. |
|
Optional: Goldene LLM-Antwort als Referenz |
BleuResults
{ "bleu_results": { "bleu_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
Bewertungsergebnisse pro Instanzeingabe. |
|
|
RougeInput
{ "rouge_input": { "metric_spec": { "rouge_type": string, "use_stemmer": bool, "split_summaries": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Zulässige Werte:
|
|
Optional: Gibt an, ob der Porter-Stemmer zum Entfernen von Wortsuffixen verwendet werden soll, um die Übereinstimmung zu verbessern. |
|
Optional: Gibt an, ob Zeilenumbrüche zwischen Sätzen für rougeLsum hinzugefügt werden sollen. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort. |
|
Optional: Goldene LLM-Antwort als Referenz |
RougeResults
{ "rouge_results": { "rouge_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
Bewertungsergebnisse pro Instanzeingabe. |
|
|
FluencyInput
{ "fluency_input": { "metric_spec": {}, "instance": { "prediction": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingaben, bestehend aus LLM-Antworten. |
|
Optional: LLM-Antwort. |
FluencyResult
{ "fluency_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
CoherenceInput
{ "coherence_input": { "metric_spec": {}, "instance": { "prediction": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus der LLM-Antwort. |
|
Optional: LLM-Antwort. |
CoherenceResult
{ "coherence_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
SafetyInput
{ "safety_input": { "metric_spec": {}, "instance": { "prediction": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus der LLM-Antwort. |
|
Optional: LLM-Antwort. |
SafetyResult
{ "safety_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
GroundednessInput
{ "groundedness_input": { "metric_spec": {}, "instance": { "prediction": string, "context": string } } }
Parameter |
Beschreibung |
|
Optional: GroundednessSpec Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: GroundednessInstance Bewertungseingabe, bestehend aus Inferenzeingängen und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
GroundednessResult
{ "groundedness_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
FulfillmentInput
{ "fulfillment_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingängen und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zum Zeitpunkt der Inferenz verwendet wird. |
FulfillmentResult
{ "fulfillment_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
SummarizationQualityInput
{ "summarization_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingängen und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zum Zeitpunkt der Inferenz verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
SummarizationQualityResult
{ "summarization_quality_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
PairwiseSummarizationQualityInput
{ "pairwise_summarization_quality_input": { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingängen und entsprechender Antwort. |
|
Optional: LLM-Antwort des Baseline-Modells. |
|
Optional: LLM-Antwort des Kandidatenmodells. |
|
Optional: Anweisung, die zum Zeitpunkt der Inferenz verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
PairwiseSummarizationQualityResult
{ "pairwise_summarization_quality_result": { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
SummarizationHelpfulnessInput
{ "summarization_helpfulness_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingängen und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zum Zeitpunkt der Inferenz verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
SummarizationHelpfulnessResult
{ "summarization_helpfulness_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
SummarizationVerbosityInput
{ "summarization_verbosity_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingängen und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zum Zeitpunkt der Inferenz verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
SummarizationVerbosityResult
{ "summarization_verbosity_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
QuestionAnsweringQualityInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingängen und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zum Zeitpunkt der Inferenz verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
QuestionAnsweringQualityResult
{ "question_answering_quality_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
PairwiseQuestionAnsweringQualityInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingängen und entsprechender Antwort. |
|
Optional: LLM-Antwort des Baseline-Modells. |
|
Optional: LLM-Antwort des Kandidatenmodells. |
|
Optional: Anweisung, die zum Zeitpunkt der Inferenz verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
PairwiseQuestionAnsweringQualityResult
{ "pairwise_question_answering_quality_result": { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
QuestionAnsweringRelevanceInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingängen und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zum Zeitpunkt der Inferenz verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
QuestionAnsweringRelevancyResult
{ "question_answering_relevancy_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
QuestionAnsweringHelpfulnessInput
{ "question_answering_helpfulness_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingängen und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Anweisung, die zum Zeitpunkt der Inferenz verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
QuestionAnsweringHelpfulnessResult
{ "question_answering_helpfulness_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
QuestionAnsweringCorrectnessInput
{ "question_answering_correctness_input": { "metric_spec": { "use_reference": bool }, "instance": { "prediction": string, "reference": string, "instruction": string, "context": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Ob die Referenz in der Bewertung verwendet wird oder nicht. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingängen und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Goldene LLM-Antwort als Referenz |
|
Optional: Anweisung, die zum Zeitpunkt der Inferenz verwendet wird. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
QuestionAnsweringCorrectnessResult
{ "question_answering_correctness_result": { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
PointwiseMetricInput
{ "pointwise_metric_input": { "metric_spec": { "metric_prompt_template": string }, "instance": { "json_instance": string, } } }
Parameter | |
---|---|
|
Erforderlich: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Erforderlich: Eine Promptvorlage, in der der Messwert definiert wird. Sie wird anhand der Schlüssel/Wert-Paare in „instance.json_instance“ gerendert. |
|
Erforderlich: Bewertungseingabe, bestehend aus „json_instance“. |
|
Optional: Die Schlüssel/Wert-Paare im JSON-Format. Beispiel: {"key_1": "value_1", "key_2": "value_2"}. Sie wird zum Rendern von „metric_spec.metric_prompt_template“ verwendet. |
PointwiseMetricResult
{ "pointwise_metric_result": { "score": float, "explanation": string, } }
Ausgabe | |
---|---|
|
|
|
|
PairwiseMetricInput
{ "pairwise_metric_input": { "metric_spec": { "metric_prompt_template": string }, "instance": { "json_instance": string, } } }
Parameter | |
---|---|
|
Erforderlich: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Erforderlich: Eine Promptvorlage, in der der Messwert definiert wird. Sie wird anhand der Schlüssel/Wert-Paare in „instance.json_instance“ gerendert. |
|
Erforderlich: Bewertungseingabe, bestehend aus „json_instance“. |
|
Optional: Die Schlüssel/Wert-Paare im JSON-Format. Beispiel: {"key_1": "value_1", "key_2": "value_2"}. Sie wird zum Rendern von „metric_spec.metric_prompt_template“ verwendet. |
PairwiseMetricResult
{ "pairwise_metric_result": { "score": float, "explanation": string, } }
Ausgabe | |
---|---|
|
|
|
|
ToolCallValidInput
{ "tool_call_valid_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort des Kandidatenmodells, ein JSON-serialisierter String mit den Schlüsseln { "content": "", "tool_calls": [ { "name": "book_tickets", "arguments": { "movie": "Mission Impossible Dead Reckoning Part 1", "theater": "Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30", "num_tix": "2" } } ] } |
|
Optional: Ausgabe des Goldmodells im selben Format wie die Vorhersage. |
ToolCallValidResults
{ "tool_call_valid_results": { "tool_call_valid_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
wiederholt |
|
|
ToolNameMatchInput
{ "tool_name_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort des Kandidatenmodells, ein JSON-serialisierter String mit den Schlüsseln |
|
Optional: Ausgabe des Goldmodells im selben Format wie die Vorhersage. |
ToolNameMatchResults
{ "tool_name_match_results": { "tool_name_match_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
wiederholt |
|
|
ToolParameterKeyMatchInput
{ "tool_parameter_key_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort des Kandidatenmodells, ein JSON-serialisierter String mit den Schlüsseln |
|
Optional: Ausgabe des Goldmodells im selben Format wie die Vorhersage. |
ToolParameterKeyMatchResults
{ "tool_parameter_key_match_results": { "tool_parameter_key_match_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
wiederholt |
|
|
ToolParameterKVMatchInput
{ "tool_parameter_kv_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort des Kandidatenmodells, ein JSON-serialisierter String mit den Schlüsseln |
|
Optional: Ausgabe des Goldmodells im selben Format wie die Vorhersage. |
ToolParameterKVMatchResults
{ "tool_parameter_kv_match_results": { "tool_parameter_kv_match_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
wiederholt |
|
|
CometInput
{ "comet_input" : { "metric_spec" : { "version": string }, "instance": { "prediction": string, "source": string, "reference": string, }, } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional:
|
|
Optional: Quellsprache im BCP-47-Format. Beispiel: „de“. |
|
Optional: Zielsprache im BCP-47-Format. Beispiel: „de“ |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. Die genauen Felder, die für die Bewertung verwendet werden, hängen von der COMET-Version ab. |
|
Optional: LLM-Antwort des Kandidatenmodells. Dies ist die Ausgabe des LLM, die bewertet wird. |
|
Optional: Quelltext Dieser Text ist in der Originalsprache, aus der die Vorhersage übersetzt wurde. |
|
Optional: Ground Truth, die mit der Vorhersage verglichen wird. Dieser Text ist in derselben Sprache wie die Vorhersage. |
CometResult
{ "comet_result" : { "score": float } }
Ausgabe | |
---|---|
|
|
MetricxInput
{ "metricx_input" : { "metric_spec" : { "version": string }, "instance": { "prediction": string, "source": string, "reference": string, }, } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional:
Eines der folgenden Betriebssysteme:
|
|
Optional: Quellsprache im BCP-47-Format. Beispiel: „de“. |
|
Optional: Zielsprache im BCP-47-Format. Beispiel: „de“. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. Die genauen Felder, die für die Bewertung verwendet werden, hängen von der MetricX-Version ab. |
|
Optional: LLM-Antwort des Kandidatenmodells. Dies ist die Ausgabe des LLM, die bewertet wird. |
|
Optional: Quelltext in der Originalsprache, aus der die Vorhersage übersetzt wurde. |
|
Optional: Ground Truth, die mit der Vorhersage verglichen wird. Sie ist in derselben Sprache wie die Vorhersage. |
MetricxResult
{ "metricx_result" : { "score": float } }
Ausgabe | |
---|---|
|
|
Beispiele
Ausgabe berechnen
Im folgenden Beispiel wird gezeigt, wie Sie die Gen AI Evaluation API aufrufen, um die Ausgabe eines LLM mithilfe verschiedener Bewertungsmesswerte zu bewerten, darunter:
summarization_quality
groundedness
fulfillment
summarization_helpfulness
summarization_verbosity
Python
Go
Ausgabe bewerten: Qualität der paarweisen Zusammenfassung
Im folgenden Beispiel wird gezeigt, wie Sie die API des Gen AI-Bewertungsdiensts aufrufen, um die Ausgabe eines LLM mithilfe eines paarweisen Vergleichs der Qualität der Zusammenfassung zu bewerten.
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- PROJECT_ID: Ihre Projekt-ID.
- LOCATION: Die Region, in der die Anfrage verarbeitet werden soll.
- PREDICTION: LLM-Antwort.
- BASELINE_PREDICTION: LLM-Antwort des Baseline-Modells.
- INSTRUCTION: Die Anweisung, die bei der Inferenz verwendet wird.
- CONTEXT: Inferenzzeittext, der alle relevanten Informationen enthält, die in der LLM-Antwort verwendet werden können.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \
JSON-Text der Anfrage:
{ "pairwise_summarization_quality_input": { "metric_spec": {}, "instance": { "prediction": "PREDICTION", "baseline_prediction": "BASELINE_PREDICTION", "instruction": "INSTRUCTION", "context": "CONTEXT", } } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \" | Select-Object -Expand Content
Python
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Python API.
Go
Go
Bevor Sie dieses Beispiel anwenden, folgen Sie den Go Schritten zur Einrichtung in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Go API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
ROUGE-Wert abrufen
Im folgenden Beispiel wird die API des Gen AI Evaluation Service aufgerufen, um den ROUGE-Score einer Vorhersage abzurufen, die anhand einer Reihe von Eingaben generiert wurde. Für die ROUGE-Eingabewerte wird metric_spec
verwendet, was das Verhalten des Messwerts bestimmt.
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- PROJECT_ID: Ihre Projekt-ID.
- LOCATION: Die Region, in der die Anfrage verarbeitet werden soll.
- PREDICTION: LLM-Antwort.
- REFERENCE: Goldene LLM-Antwort als Referenz
- ROUGE_TYPE: Die Berechnung, mit der der ROUGE-Wert ermittelt wird. Zulässige Werte finden Sie unter
metric_spec.rouge_type
. - USE_STEMMER: Bestimmt, ob der Porter-Stemmer zum Entfernen von Wortsuffixen verwendet wird, um die Übereinstimmung zu verbessern. Zulässige Werte finden Sie unter
metric_spec.use_stemmer
. - SPLIT_SUMMARIES: Bestimmt, ob zwischen
rougeLsum
-Sätzen neue Zeilen eingefügt werden. Zulässige Werte finden Sie untermetric_spec.split_summaries
.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \
JSON-Text der Anfrage:
{ "rouge_input": { "instances": { "prediction": "PREDICTION", "reference": "REFERENCE.", }, "metric_spec": { "rouge_type": "ROUGE_TYPE", "use_stemmer": USE_STEMMER, "split_summaries": SPLIT_SUMMARIES, } } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \" | Select-Object -Expand Content
Python
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Python API.
Go
Go
Bevor Sie dieses Beispiel anwenden, folgen Sie den Go Schritten zur Einrichtung in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Go API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Nächste Schritte
- Eine ausführliche Dokumentation finden Sie unter Bewertung ausführen.