Panduan ini menunjukkan cara menjalankan pipeline evaluasi berbasis komputasi untuk mengevaluasi performa model dasar dan model AI generatif yang telah disesuaikan di Vertex AI. Pipeline mengevaluasi model Anda menggunakan serangkaian metrik terhadap set data evaluasi yang Anda berikan. Halaman ini membahas beberapa topik berikut: Diagram berikut merangkum alur kerja keseluruhan untuk menjalankan evaluasi berbasis komputasi: Untuk fitur evaluasi berbasis komputasi terbaru, lihat Tentukan metrik Anda. Untuk mengevaluasi performa model, Anda memberikan set data evaluasi yang berisi pasangan perintah dan kebenaran nyata. Untuk setiap pasangan, perintah adalah input yang ingin Anda evaluasi, dan kebenaran dasarnya adalah respons ideal untuk perintah tersebut. Selama evaluasi, proses meneruskan perintah dari setiap pasangan ke model untuk menghasilkan output. Kemudian, proses ini menggunakan output yang dihasilkan model dan kebenaran nyata yang sesuai untuk menghitung metrik evaluasi. Jenis metrik yang digunakan untuk evaluasi bergantung pada tugas yang Anda evaluasi. Tabel berikut menunjukkan tugas yang didukung dan metrik yang digunakan untuk mengevaluasi setiap tugas: Anda dapat mengevaluasi model berikut: Set data evaluasi mencakup pasangan perintah dan kebenaran nyata yang selaras dengan tugas yang ingin Anda evaluasi. Set data Anda harus menyertakan minimal satu pasangan perintah dan kebenaran nyata, dan minimal 10 pasangan untuk metrik yang bermakna. Makin banyak contoh yang Anda berikan, makin bermakna hasilnya. Set data evaluasi Anda harus dalam format JSON Lines (JSONL), dengan setiap baris adalah objek JSON. Setiap objek harus berisi kolom Panjang token maksimum untuk Anda dapat membuat bucket Cloud Storage baru atau menggunakan bucket yang sudah ada untuk menyimpan file set data. Bucket harus berada di region yang sama dengan model. Setelah bucket siap,
upload
file set data Anda ke bucket. Anda dapat menjalankan tugas evaluasi berbasis komputasi menggunakan konsol Google Cloud , REST API, atau Vertex AI SDK untuk Python. Tabel berikut dapat membantu Anda memilih opsi terbaik untuk kasus penggunaan Anda. Gunakan salah satu metode berikut untuk menjalankan tugas evaluasi model.
Untuk membuat tugas evaluasi model, kirim permintaan
Sebelum menggunakan salah satu data permintaan,
lakukan penggantian berikut:
Contoh: Contoh: Tugas evaluasi tidak memengaruhi deployment model atau resource yang ada.
Metode HTTP dan URL:
Isi JSON permintaan:
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
Simpan isi permintaan dalam file bernama
Simpan isi permintaan dalam file bernama Anda akan menerima respons JSON yang mirip dengan yang berikut ini: Perhatikan bahwa Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python.
Untuk mengetahui informasi selengkapnya, lihat
Dokumentasi referensi API Python.
Untuk membuat tugas evaluasi model menggunakan konsol Google Cloud , ikuti langkah-langkah berikut: Anda dapat menemukan hasil evaluasi di direktori output Cloud Storage yang Anda tentukan saat membuat tugas evaluasi. Nama filenya adalah Untuk model yang di-tune, Anda juga dapat melihat hasil evaluasi di konsol Google Cloud : Di bagian Vertex AI pada konsol Google Cloud , buka halaman Vertex AI Model Registry. Klik nama model untuk melihat metrik evaluasinya. Di tab Evaluate, klik nama proses evaluasi yang ingin Anda lihat.
Cara kerja evaluasi model berbasis komputasi
Tugas
Metrik
Klasifikasi
Micro-F1, Macro-F1, Per class F1
Perangkuman
ROUGE-L
Proses menjawab pertanyaan
Pencocokan Persis
Pembuatan teks
BLEU, ROUGE-L
Model yang didukung
text-bison
: Versi dasar dan versi yang disesuaikan.Menyiapkan dan mengupload set data evaluasi
Format set data
input_text
dengan perintah yang ingin Anda evaluasi dan kolom output_text
dengan respons ideal untuk perintah tersebut.input_text
adalah 8.192, dan panjang token maksimum untuk output_text
adalah 1.024.Mengupload set data ke Cloud Storage
Pilih metode evaluasi
Metode
Deskripsi
Kasus Penggunaan
Google Cloud console
Antarmuka pengguna grafis (GUI) yang menyediakan alur kerja langkah demi langkah yang terpandu untuk membuat dan memantau tugas evaluasi.
REST API
Antarmuka terprogram untuk membuat tugas evaluasi dengan mengirim permintaan JSON ke endpoint.
Vertex AI SDK untuk Python
Library Python tingkat tinggi yang menyederhanakan interaksi dengan Vertex AI API.
Melakukan evaluasi model
REST
POST
menggunakan metode
pipelineJobs.
us-central1
yang didukung.
publishers/google/models/MODEL@MODEL_VERSION
publishers/google/models/text-bison@002
projects/PROJECT_NUMBER/locations/LOCATION/models/ENDPOINT_ID
projects/123456789012/locations/us-central1/models/1234567890123456789
summarization
question-answering
text-generation
classification
jsonl
yang didukung. Untuk mempelajari parameter ini lebih lanjut, lihat
InputConfig.jsonl
yang didukung. Untuk mempelajari parameter ini
lebih lanjut, lihat
InputConfig.e2-highmem-16
. Untuk mengetahui daftar
jenis mesin yang didukung, lihat
Jenis mesin.projects/PROJECT_NUMBER/global/networks/NETWORK_NAME
. Jika
menentukan kolom ini, Anda harus memiliki Peering Jaringan VPC untuk
Vertex AI. Jika tidak ditentukan, tugas evaluasi tidak di-peering dengan jaringan apa pun.projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING/cryptoKeys/KEY
.
Kunci tersebut harus berada di region yang sama dengan tugas evaluasi.POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs
{
"displayName": "PIPELINEJOB_DISPLAYNAME",
"runtimeConfig": {
"gcsOutputDirectory": "gs://OUTPUT_DIR",
"parameterValues": {
"project": "PROJECT_ID",
"location": "LOCATION",
"batch_predict_gcs_source_uris": ["gs://DATASET_URI"],
"batch_predict_gcs_destination_output_uri": "gs://OUTPUT_DIR",
"model_name": "MODEL_NAME",
"evaluation_task": "EVALUATION_TASK",
"batch_predict_instances_format": "INSTANCES_FORMAT",
"batch_predict_predictions_format: "PREDICTIONS_FORMAT",
"machine_type": "MACHINE_TYPE",
"service_account": "SERVICE_ACCOUNT",
"network": "NETWORK",
"encryption_spec_key_name": "KEY_NAME"
}
},
"templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}
curl
request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"PowerShell
request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs" | Select-Object -Expand ContentpipelineSpec
telah dipotong untuk menghemat ruang penyimpanan.
Contoh perintah curl
PROJECT_ID=myproject
REGION=us-central1
MODEL_NAME=publishers/google/models/text-bison@002
TEST_DATASET_URI=gs://my-gcs-bucket-uri/dataset.jsonl
OUTPUT_DIR=gs://my-gcs-bucket-uri/output
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
"https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/pipelineJobs" -d \
$'{
"displayName": "evaluation-llm-text-generation-pipeline",
"runtimeConfig": {
"gcsOutputDirectory": "'${OUTPUT_DIR}'",
"parameterValues": {
"project": "'${PROJECT_ID}'",
"location": "'${REGION}'",
"batch_predict_gcs_source_uris": ["'${TEST_DATASET_URI}'"],
"batch_predict_gcs_destination_output_uri": "'${OUTPUT_DIR}'",
"model_name": "'${MODEL_NAME}'",
}
},
"templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}'
Python
Konsol
ground_truth
.jsonl
yang didukung.Melihat hasil evaluasi
evaluation_metrics.json
.
Langkah berikutnya
Menjalankan pipeline evaluasi berbasis komputasi
Kecuali dinyatakan lain, konten di halaman ini dilisensikan berdasarkan Lisensi Creative Commons Attribution 4.0, sedangkan contoh kode dilisensikan berdasarkan Lisensi Apache 2.0. Untuk mengetahui informasi selengkapnya, lihat Kebijakan Situs Google Developers. Java adalah merek dagang terdaftar dari Oracle dan/atau afiliasinya.
Terakhir diperbarui pada 2025-08-19 UTC.