In dieser Anleitung erfahren Sie, wie Sie eine berechnungsbasierte Bewertungs-Pipeline ausführen, um die Leistung von Foundation Models und Ihren abgestimmten generativen KI-Modellen in Vertex AI zu bewerten. In der Pipeline wird Ihr Modell anhand einer Reihe von Messwerten anhand eines von Ihnen bereitgestellten Bewertungs-Datasets ausgewertet. Auf dieser Seite werden die folgenden Themen behandelt: Im folgenden Diagramm wird der gesamte Workflow für die Durchführung einer berechnungsbasierten Bewertung zusammengefasst: Informationen zu den neuesten rechenbasierten Bewertungsfunktionen finden Sie unter Messwerte definieren. Zum Bewerten der Leistung eines Modells stellen Sie ein Bewertungs-Dataset bereit, das Prompt- und Ground-Truth-Paare enthält. Die Eingabeaufforderung ist für jedes Paar die Eingabe, die Sie auswerten möchten, und die Ground-Truth-Antwort ist die ideale Antwort auf diese Eingabeaufforderung. Während der Bewertung wird der Prompt aus jedem Paar an das Modell übergeben, um eine Ausgabe zu generieren. Anschließend werden die vom Modell generierte Ausgabe und die entsprechende Grundwahrheit verwendet, um die Bewertungsmesswerte zu berechnen. Die Art der Messwerte, die für die Bewertung verwendet werden, hängt von der Aufgabe ab, die Sie bewerten. Die folgende Tabelle enthält die unterstützten Aufgaben und die Messwerte, die zum Bewerten der einzelnen Aufgaben verwendet werden: Sie können die folgenden Modelle auswerten: Das Bewertungs-Dataset enthält Prompt- und Ground-Truth-Paare, die der Aufgabe entsprechen, die Sie bewerten möchten. Ihr Dataset muss mindestens ein Prompt- und Ground-Truth-Paar und mindestens 10 Paare enthalten, um aussagekräftige Messwerte zu erhalten. Je mehr Beispiele Sie angeben, desto aussagekräftiger sind die Ergebnisse. Ihr Bewertungs-Dataset muss im JSON Lines-Format (JSONL) vorliegen, wobei jede Zeile ein JSON-Objekt ist. Jedes Objekt muss ein Die maximale Tokenlänge für Sie können einen neuen Cloud Storage-Bucket erstellen oder einen vorhandenen Bucket zum Speichern Ihrer Dataset-Datei verwenden. Der Bucket muss sich in derselben Region wie das Modell befinden. Wenn der Bucket bereit ist, laden Sie Ihre Dataset-Datei in den Bucket hoch. Sie können einen berechnungsbasierten Bewertungsjob mit der Google Cloud Console, der REST API oder dem Vertex AI SDK für Python ausführen. Die folgende Tabelle kann Ihnen helfen, die beste Option für Ihren Anwendungsfall auszuwählen. Verwenden Sie eine der folgenden Methoden, um einen Modellbewertungsjob auszuführen.
Senden Sie zum Erstellen eines Modellbewertungsjobs eine Ersetzen Sie diese Werte in den folgenden Anfragedaten: Beispiel: Beispiel: Der Bewertungsjob hat keine Auswirkungen auf vorhandene Bereitstellungen des Modells oder deren Ressourcen. HTTP-Methode und URL: JSON-Text der Anfrage: Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
Speichern Sie den Anfragetext in einer Datei mit dem Namen
Speichern Sie den Anfragetext in einer Datei mit dem Namen Sie sollten eine JSON-Antwort ähnlich wie diese erhalten: Beachten Sie, dass Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren.
Weitere Informationen finden Sie in der
Python-API-Referenzdokumentation.
So erstellen Sie einen Modellbewertungsjob mit der Google Cloud Console: Sie finden die Bewertungsergebnisse im Cloud Storage-Ausgabeverzeichnis, das Sie beim Erstellen des Bewertungsjobs angegeben haben. Die Datei heißt Bei optimierten Modellen können Sie auch Bewertungsergebnisse in der Google Cloud Console aufrufen: Rufen Sie in der Google Cloud Console im Bereich „Vertex AI“ die Seite Vertex AI Model Registry auf. Klicken Sie auf den Namen des Modells, um die Bewertungsmesswerte aufzurufen. Klicken Sie auf dem Tab Bewerten auf den Namen der Bewertungsausführung, die Sie aufrufen möchten.
Funktionsweise der berechnungsbasierten Modellbewertung
Aufgabe
Messwert
Klassifizierung
Micro-F1, Macro-F1, F1 pro Klasse
Zusammenfassung
ROUGE-L
Beantworten von Fragen
Genau passend
Textgenerierung
BLEU, ROUGE-L
Unterstützte Modelle
text-bison
: Basis- und abgestimmte Versionen.Bewertungs-Dataset vorbereiten und hochladen
Dataset-Format
input_text
-Feld mit dem Prompt, den Sie auswerten möchten, und ein output_text
-Feld mit der idealen Antwort für diesen Prompt enthalten.input_text
ist 8.192, die maximale Tokenlänge für output_text
ist 1.024.Dataset in Cloud Storage hochladen
Auswertungsmethode auswählen
Methode
Beschreibung
Anwendungsfall
Google Cloud console
Eine grafische Benutzeroberfläche (GUI) mit einem geführten, schrittweisen Workflow zum Erstellen und Überwachen von Bewertungsjobs.
REST API
Eine programmatische Schnittstelle zum Erstellen von Bewertungsjobs durch Senden von JSON-Anfragen an einen Endpunkt.
Vertex AI SDK für Python
Eine übergeordnete Python-Bibliothek, die die Interaktion mit der Vertex AI API vereinfacht.
Modellbewertung durchführen
REST
POST
-Anfrage mit der Methode pipelineJobs.
us-central1
unterstützt.
publishers/google/models/MODEL@MODEL_VERSION
publishers/google/models/text-bison@002
projects/PROJECT_NUMBER/locations/LOCATION/models/ENDPOINT_ID
projects/123456789012/locations/us-central1/models/1234567890123456789
summarization
question-answering
text-generation
classification
jsonl
unterstützt. Weitere Informationen zu diesem Parameter finden Sie unter InputConfig.jsonl
unterstützt. Weitere Informationen zu diesem Parameter finden Sie unter InputConfig.e2-highmem-16
. Eine Liste der unterstützten Maschinentypen finden Sie unter Maschinentypen.projects/PROJECT_NUMBER/global/networks/NETWORK_NAME
. Wenn Sie dieses Feld angeben, benötigen Sie ein VPC-Netzwerk-Peering für Vertex AI. Wenn nicht angegeben, wird der Bewertungsjob nicht über Peering mit einem Netzwerk verbunden.projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING/cryptoKeys/KEY
.
Der Schlüssel muss sich in derselben Region wie der Bewertungsjob befinden.POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs
{
"displayName": "PIPELINEJOB_DISPLAYNAME",
"runtimeConfig": {
"gcsOutputDirectory": "gs://OUTPUT_DIR",
"parameterValues": {
"project": "PROJECT_ID",
"location": "LOCATION",
"batch_predict_gcs_source_uris": ["gs://DATASET_URI"],
"batch_predict_gcs_destination_output_uri": "gs://OUTPUT_DIR",
"model_name": "MODEL_NAME",
"evaluation_task": "EVALUATION_TASK",
"batch_predict_instances_format": "INSTANCES_FORMAT",
"batch_predict_predictions_format: "PREDICTIONS_FORMAT",
"machine_type": "MACHINE_TYPE",
"service_account": "SERVICE_ACCOUNT",
"network": "NETWORK",
"encryption_spec_key_name": "KEY_NAME"
}
},
"templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}
curl
request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"PowerShell
request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs" | Select-Object -Expand ContentpipelineSpec
gekürzt wurde, um Speicherplatz zu sparen.
Beispiel: cURL-Befehls
PROJECT_ID=myproject
REGION=us-central1
MODEL_NAME=publishers/google/models/text-bison@002
TEST_DATASET_URI=gs://my-gcs-bucket-uri/dataset.jsonl
OUTPUT_DIR=gs://my-gcs-bucket-uri/output
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
"https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/pipelineJobs" -d \
$'{
"displayName": "evaluation-llm-text-generation-pipeline",
"runtimeConfig": {
"gcsOutputDirectory": "'${OUTPUT_DIR}'",
"parameterValues": {
"project": "'${PROJECT_ID}'",
"location": "'${REGION}'",
"batch_predict_gcs_source_uris": ["'${TEST_DATASET_URI}'"],
"batch_predict_gcs_destination_output_uri": "'${OUTPUT_DIR}'",
"model_name": "'${MODEL_NAME}'",
}
},
"templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}'
Python
Console
ground_truth
.jsonl
unterstützt.Bewertungsergebnisse ansehen
evaluation_metrics.json
.
Nächste Schritte
Berechnungsbasierte Bewertungspipeline ausführen
Sofern nicht anders angegeben, sind die Inhalte dieser Seite unter der Creative Commons Attribution 4.0 License und Codebeispiele unter der Apache 2.0 License lizenziert. Weitere Informationen finden Sie in den Websiterichtlinien von Google Developers. Java ist eine eingetragene Marke von Oracle und/oder seinen Partnern.
Zuletzt aktualisiert: 2025-08-19 (UTC).