Mulai 29 April 2025, model Gemini 1.5 Pro dan Gemini 1.5 Flash tidak tersedia di project yang belum pernah menggunakan model ini, termasuk project baru. Untuk mengetahui detailnya, lihat Versi dan siklus proses model.

Halaman ini diterjemahkan oleh Cloud Translation API.

Mengevaluasi agen

Setelah mengembangkan agen, Anda dapat menggunakan layanan evaluasi Gen AI untuk mengevaluasi kemampuan agen dalam menyelesaikan tugas dan sasaran untuk kasus penggunaan tertentu.

Menentukan metrik evaluasi

Mulai dengan daftar metrik kosong (yaitu metrics = []) dan tambahkan metrik yang relevan ke dalamnya. Untuk menyertakan metrik tambahan:

Respons akhir

Evaluasi respons akhir mengikuti proses yang sama dengan evaluasi berbasis model. Untuk mengetahui detailnya, lihat Menentukan metrik evaluasi.

Pencocokan persis

metrics.append("trajectory_exact_match")

Jika lintasan yang diprediksi identik dengan lintasan referensi, dengan panggilan alat yang sama persis dalam urutan yang sama persis, metrik trajectory_exact_match akan menampilkan skor 1, jika tidak, 0.

Parameter input:

predicted_trajectory: Daftar panggilan alat yang digunakan oleh agen untuk mencapai respons akhir.
reference_trajectory: Penggunaan alat yang diharapkan agar agen dapat memenuhi kueri.

Pencocokan dalam urutan

metrics.append("trajectory_in_order_match")

Jika lintasan yang diprediksi berisi semua panggilan alat dari lintasan referensi dalam urutan yang sama, dan mungkin juga memiliki panggilan alat tambahan, metrik trajectory_in_order_match akan menampilkan skor 1, jika tidak, 0.

Parameter input:

predicted_trajectory: Prediksi lintasan yang digunakan oleh agen untuk mencapai respons akhir.
reference_trajectory: Prediksi lintasan yang diharapkan untuk agen agar memenuhi kueri.

Pencocokan urutan apa pun

metrics.append("trajectory_any_order_match")

Jika lintasan yang diprediksi berisi semua panggilan alat dari lintasan referensi, tetapi urutannya tidak penting dan dapat berisi panggilan alat tambahan, metrik trajectory_any_order_match akan menampilkan skor 1, jika tidak, 0.

Parameter input:

predicted_trajectory: Daftar panggilan alat yang digunakan oleh agen untuk mencapai respons akhir.
reference_trajectory: Penggunaan alat yang diharapkan agar agen dapat memenuhi kueri.

Presisi

metrics.append("trajectory_precision")

Metrik trajectory_precision mengukur jumlah panggilan alat dalam jalur yang diprediksi yang benar-benar relevan atau benar sesuai dengan jalur referensi. Ini adalah nilai float dalam rentang [0, 1]: makin tinggi skor, makin presisi lintasan yang diprediksi.

Presisi dihitung sebagai berikut: Hitung jumlah tindakan dalam lintasan yang diprediksi yang juga muncul dalam lintasan referensi. Bagi jumlah tersebut dengan jumlah total tindakan dalam lintasan yang diprediksi.

Parameter input:

predicted_trajectory: Daftar panggilan alat yang digunakan oleh agen untuk mencapai respons akhir.
reference_trajectory: Penggunaan alat yang diharapkan agar agen memenuhi kueri.

Recall

metrics.append("trajectory_recall")

Metrik trajectory_recall mengukur jumlah panggilan alat penting dari lintasan referensi yang benar-benar diambil dalam lintasan yang diprediksi. Ini adalah nilai float dalam rentang [0, 1]: makin tinggi skor, makin baik recall lintasan yang diprediksi.

Recall dihitung sebagai berikut: Hitung jumlah tindakan dalam lintasan referensi yang juga muncul dalam lintasan yang diprediksi. Bagi jumlah tersebut dengan jumlah total tindakan dalam lintasan referensi.

Parameter input:

predicted_trajectory: Daftar panggilan alat yang digunakan oleh agen untuk mencapai respons akhir.
reference_trajectory: Penggunaan alat yang diharapkan agar agen dapat memenuhi kueri.

Penggunaan satu alat

from vertexai.preview.evaluation import metrics

metrics.append(metrics.TrajectorySingleToolUse(tool_name='tool_name'))

Metrik trajectory_single_tool_use memeriksa apakah alat tertentu yang ditentukan dalam spesifikasi metrik digunakan dalam lintasan yang diprediksi. Fungsi ini tidak memeriksa urutan panggilan alat atau frekuensi penggunaan alat, hanya apakah alat tersebut ada atau tidak. Nilainya adalah 0 jika alat tidak ada, 1 jika ada.

Parameter input:

predicted_trajectory: Daftar panggilan alat yang digunakan oleh agen untuk mencapai respons akhir.

Kustom

Anda dapat menentukan metrik kustom sebagai berikut:

from vertexai.preview.evaluation import metrics

def word_count(instance):
  response = instance["response"]
  score = len(response.split(" "))
  return {"word_count": score}

metrics.append(
  metrics.CustomMetric(name="word_count", metric_function=word_count)
)

Dua metrik performa berikut selalu disertakan dalam hasil. Anda tidak perlu menentukannya di EvalTask:

latency (float): Waktu yang diperlukan (dalam detik) oleh agen untuk merespons.
failure (bool): 0 jika pemanggilan agen berhasil, 1 jika tidak.

Menyiapkan set data evaluasi

Untuk menyiapkan set data Anda untuk evaluasi respons atau lintasan akhir: