Mulai 29 April 2025, model Gemini 1.5 Pro dan Gemini 1.5 Flash tidak tersedia di project yang belum pernah menggunakan model ini, termasuk project baru. Untuk mengetahui detailnya, lihat Versi dan siklus proses model.

Halaman ini diterjemahkan oleh Cloud Translation API.

API layanan evaluasi AI Generatif

Layanan evaluasi AI Generatif memungkinkan Anda mengevaluasi model bahasa besar (LLM) di beberapa metrik dengan kriteria Anda sendiri. Anda dapat memberikan input waktu inferensi, respons LLM, dan parameter tambahan, dan layanan evaluasi AI Generatif akan menampilkan metrik khusus untuk tugas evaluasi.

Metrik mencakup metrik berbasis model, seperti PointwiseMetric dan PairwiseMetric, serta metrik yang dihitung dalam memori, seperti rouge, bleu, dan metrik panggilan fungsi alat. PointwiseMetric dan PairwiseMetric adalah metrik berbasis model generik yang dapat Anda sesuaikan dengan kriteria Anda sendiri. Karena layanan ini mengambil hasil prediksi langsung dari model sebagai input, layanan evaluasi dapat melakukan inferensi dan evaluasi berikutnya pada semua model yang didukung oleh Vertex AI.

Untuk mengetahui informasi selengkapnya tentang cara mengevaluasi model, lihat Ringkasan layanan evaluasi Gen AI.

Batasan

Berikut adalah batasan layanan evaluasi:

Layanan evaluasi mungkin mengalami penundaan propagasi pada panggilan pertama Anda.
Sebagian besar metrik berbasis model menggunakan kuota gemini-2.0-flash karena layanan evaluasi AI Generatif memanfaatkan gemini-2.0-flash sebagai model penilaian yang mendasari untuk menghitung metrik berbasis model ini.
Beberapa metrik berbasis model, seperti MetricX dan COMET, menggunakan model machine learning yang berbeda, sehingga tidak menggunakan kuota flash gemini-2.0.

Contoh sintaksis

Sintaksis untuk mengirim panggilan evaluasi.

curl

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \

https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances \
-d '{
  "pointwise_metric_input" : {
    "metric_spec" : {
      ...
    },
    "instance": {
      ...
    },
  }
}'

Python

import json

from google import auth
from google.api_core import exceptions
from google.auth.transport import requests as google_auth_requests

creds, _ = auth.default(
    scopes=['https://www.googleapis.com/auth/cloud-platform'])

data = {
  ...
}

uri = f'https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances'
result = google_auth_requests.AuthorizedSession(creds).post(uri, json=data)

print(json.dumps(result.json(), indent=2))

Daftar parameter

Parameter
`exact_match_input`	Opsional: `ExactMatchInput` Input untuk menilai apakah prediksi sama persis dengan referensi.
`bleu_input`	Opsional: `BleuInput` Input untuk menghitung skor BLEU dengan membandingkan prediksi dengan referensi.
`rouge_input`	Opsional: `RougeInput` Input untuk menghitung skor `rouge` dengan membandingkan prediksi dengan referensi. Skor `rouge` yang berbeda didukung oleh `rouge_type`.
`fluency_input`	Opsional: `FluencyInput` Input untuk menilai penguasaan bahasa satu respons.
`coherence_input`	Opsional: `CoherenceInput` Input untuk menilai kemampuan satu respons dalam memberikan balasan yang koheren dan mudah diikuti.
`safety_input`	Opsional: `SafetyInput` Input untuk menilai tingkat keamanan satu respons.
`groundedness_input`	Opsional: `GroundednessInput` Input untuk menilai kemampuan satu respons dalam memberikan atau mereferensikan informasi yang hanya disertakan dalam teks input.
`fulfillment_input`	Opsional: `FulfillmentInput` Input untuk menilai kemampuan satu respons dalam memenuhi petunjuk sepenuhnya.
`summarization_quality_input`	Opsional: `SummarizationQualityInput` Input untuk menilai kemampuan keseluruhan satu respons dalam meringkas teks.
`pairwise_summarization_quality_input`	Opsional: `PairwiseSummarizationQualityInput` Input untuk membandingkan kualitas peringkasan keseluruhan dari dua respons.
`summarization_helpfulness_input`	Opsional: `SummarizationHelpfulnessInput` Input untuk menilai kemampuan satu respons dalam memberikan ringkasan, yang berisi detail yang diperlukan untuk mengganti teks asli.
`summarization_verbosity_input`	Opsional: `SummarizationVerbosityInput` Input untuk menilai kemampuan satu respons dalam memberikan ringkasan yang ringkas.
`question_answering_quality_input`	Opsional: `QuestionAnsweringQualityInput` Input untuk menilai kemampuan keseluruhan satu respons dalam menjawab pertanyaan, dengan memberikan isi teks untuk dirujuk.
`pairwise_question_answering_quality_input`	Opsional: `PairwiseQuestionAnsweringQualityInput` Input untuk membandingkan kemampuan keseluruhan dua respons dalam menjawab pertanyaan, dengan memberikan isi teks untuk dirujuk.
`question_answering_relevance_input`	Opsional: `QuestionAnsweringRelevanceInput` Input untuk menilai kemampuan satu respons dalam merespons dengan informasi yang relevan saat ditanya.
`question_answering_helpfulness_input`	Opsional: `QuestionAnsweringHelpfulnessInput` Input untuk menilai kemampuan satu respons dalam memberikan detail utama saat menjawab pertanyaan.
`question_answering_correctness_input`	Opsional: `QuestionAnsweringCorrectnessInput` Input untuk menilai kemampuan satu respons dalam menjawab pertanyaan dengan benar.
`pointwise_metric_input`	Opsional: `PointwiseMetricInput` Input untuk evaluasi pointwise umum.
`pairwise_metric_input`	Opsional: `PairwiseMetricInput` Input untuk evaluasi berpasangan umum.
`tool_call_valid_input`	Opsional: `ToolCallValidInput` Input untuk menilai kemampuan satu respons dalam memprediksi panggilan alat yang valid.
`tool_name_match_input`	Opsional: `ToolNameMatchInput` Input untuk menilai kemampuan satu respons dalam memprediksi panggilan alat dengan nama alat yang tepat.
`tool_parameter_key_match_input`	Opsional: `ToolParameterKeyMatchInput` Input untuk menilai kemampuan satu respons dalam memprediksi panggilan alat dengan nama parameter yang benar.
`tool_parameter_kv_match_input`	Opsional: `ToolParameterKvMatchInput` Input untuk menilai kemampuan satu respons dalam memprediksi panggilan alat dengan nama dan nilai parameter yang benar
`comet_input`	Opsional: `CometInput` Input yang akan dievaluasi menggunakan COMET.
`metricx_input`	Opsional: `MetricxInput` Input yang akan dievaluasi menggunakan MetricX.

`ExactMatchInput`

{
  "exact_match_input": {
    "metric_spec": {},
    "instances": [
      {
        "prediction": string,
        "reference": string
      }
    ]
  }
}

Parameter
`metric_spec`	Opsional: `ExactMatchSpec`. Spesifikasi metrik, yang menentukan perilaku metrik.
`instances`	Opsional: `ExactMatchInstance[]` Input evaluasi, yang terdiri dari respons dan referensi LLM.
`instances.prediction`	Opsional: `string` Respons LLM.
`instances.reference`	Opsional: `string` Respons LLM emas untuk referensi.

`ExactMatchResults`

{
  "exact_match_results": {
    "exact_match_metric_values": [
      {
        "score": float
      }
    ]
  }
}

Output

Output
`exact_match_metric_values`	`ExactMatchMetricValue[]` Hasil evaluasi per input instance.
`exact_match_metric_values.score`	`float` Salah satu dari berikut ini: `0`: Instance tidak cocok persis `1`: Pencocokan persis

exact_match_metric_values

ExactMatchMetricValue[]

Hasil evaluasi per input instance.

exact_match_metric_values.score

float

Salah satu dari berikut ini:

0: Instance tidak cocok persis
1: Pencocokan persis

`BleuInput`

{
  "bleu_input": {
    "metric_spec": {
      "use_effective_order": bool
    },
    "instances": [
      {
        "prediction": string,
        "reference": string
      }
    ]
  }
}

Parameter
`metric_spec`	Opsional: `BleuSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`metric_spec.use_effective_order`	Opsional: `bool` Apakah akan mempertimbangkan urutan n-gram tanpa kecocokan apa pun.
`instances`	Opsional: `BleuInstance[]` Input evaluasi, yang terdiri dari respons dan referensi LLM.
`instances.prediction`	Opsional: `string` Respons LLM.
`instances.reference`	Opsional: `string` Respons LLM emas untuk referensi.

`BleuResults`

{
  "bleu_results": {
    "bleu_metric_values": [
      {
        "score": float
      }
    ]
  }
}

Output

Output
`bleu_metric_values`	`BleuMetricValue[]` Hasil evaluasi per input instance.
`bleu_metric_values.score`	`float`: `[0, 1]`, dengan skor yang lebih tinggi berarti prediksi lebih mirip dengan referensi.

bleu_metric_values

BleuMetricValue[]

Hasil evaluasi per input instance.

bleu_metric_values.score

float: [0, 1], dengan skor yang lebih tinggi berarti prediksi lebih mirip dengan referensi.

`RougeInput`

{
  "rouge_input": {
    "metric_spec": {
      "rouge_type": string,
      "use_stemmer": bool,
      "split_summaries": bool
    },
    "instances": [
      {
        "prediction": string,
        "reference": string
      }
    ]
  }
}

Parameter
`metric_spec`	Opsional: `RougeSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`metric_spec.rouge_type`	Opsional: `string` Nilai yang dapat diterima: `rougen[1-9]`: menghitung skor `rouge` berdasarkan tumpang-tindih n-gram antara prediksi dan referensi. `rougeL`: menghitung skor `rouge` berdasarkan Suburutan Umum Terpanjang (LCS) antara prediksi dan referensi. `rougeLsum`: pertama-tama memisahkan prediksi dan referensi menjadi kalimat, lalu menghitung LCS untuk setiap tuple. Skor `rougeLsum` akhir adalah rata-rata dari setiap skor LCS ini.
`metric_spec.use_stemmer`	Opsional: `bool` Apakah Porter stemmer harus digunakan untuk menghapus akhiran kata guna meningkatkan pencocokan.
`metric_spec.split_summaries`	Opsional: `bool` Apakah akan menambahkan baris baru di antara kalimat untuk rougeLsum.
`instances`	Opsional: `RougeInstance[]` Input evaluasi, yang terdiri dari respons dan referensi LLM.
`instances.prediction`	Opsional: `string` Respons LLM.
`instances.reference`	Opsional: `string` Respons LLM emas untuk referensi.

`RougeResults`

{
  "rouge_results": {
    "rouge_metric_values": [
      {
        "score": float
      }
    ]
  }
}

Output

Output
`rouge_metric_values`	`RougeValue[]` Hasil evaluasi per input instance.
`rouge_metric_values.score`	`float`: `[0, 1]`, dengan skor yang lebih tinggi berarti prediksi lebih mirip dengan referensi.

rouge_metric_values

RougeValue[]

Hasil evaluasi per input instance.

rouge_metric_values.score

float: [0, 1], dengan skor yang lebih tinggi berarti prediksi lebih mirip dengan referensi.

`FluencyInput`

{
  "fluency_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string
    }
  }
}

Parameter

Parameter
`metric_spec`	Opsional: `FluencySpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `FluencyInstance` Input evaluasi, yang terdiri dari respons LLM.
`instance.prediction`	Opsional: `string` Respons LLM.

metric_spec

Opsional: FluencySpec

Spesifikasi metrik, yang menentukan perilaku metrik.

instance

Opsional: FluencyInstance

Input evaluasi, yang terdiri dari respons LLM.

instance.prediction

Opsional: string

Respons LLM.

`FluencyResult`

{
  "fluency_result": {
    "score": float,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`score`	`float`: Salah satu dari hal berikut: `1`: Tidak jelas `2`: Agak Tidak Jelas `3`: Netral `4`: Agak lancar `5`: Fleksibel
`explanation`	`string`: Justifikasi untuk penetapan skor.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

score

float: Salah satu dari hal berikut:

1: Tidak jelas
2: Agak Tidak Jelas
3: Netral
4: Agak lancar
5: Fleksibel

explanation

string: Justifikasi untuk penetapan skor.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`CoherenceInput`

{
  "coherence_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string
    }
  }
}

Parameter

Parameter
`metric_spec`	Opsional: `CoherenceSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `CoherenceInstance` Input evaluasi, yang terdiri dari respons LLM.
`instance.prediction`	Opsional: `string` Respons LLM.

metric_spec

Opsional: CoherenceSpec

Spesifikasi metrik, yang menentukan perilaku metrik.

instance

Opsional: CoherenceInstance

Input evaluasi, yang terdiri dari respons LLM.

instance.prediction

Opsional: string

Respons LLM.

`CoherenceResult`

{
  "coherence_result": {
    "score": float,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`score`	`float`: Salah satu dari hal berikut: `1`: Tidak koheren `2`: Agak tidak koheren `3`: Netral `4`: Agak koheren `5`: Koheren
`explanation`	`string`: Justifikasi untuk penetapan skor.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

score

float: Salah satu dari hal berikut:

1: Tidak koheren
2: Agak tidak koheren
3: Netral
4: Agak koheren
5: Koheren

explanation

string: Justifikasi untuk penetapan skor.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`SafetyInput`

{
  "safety_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string
    }
  }
}

Parameter

Parameter
`metric_spec`	Opsional: `SafetySpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `SafetyInstance` Input evaluasi, yang terdiri dari respons LLM.
`instance.prediction`	Opsional: `string` Respons LLM.

metric_spec

Opsional: SafetySpec

Spesifikasi metrik, yang menentukan perilaku metrik.

instance

Opsional: SafetyInstance

Input evaluasi, yang terdiri dari respons LLM.

instance.prediction

Opsional: string

Respons LLM.

`SafetyResult`

{
  "safety_result": {
    "score": float,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`score`	`float`: Salah satu dari hal berikut: `0`: Tidak aman `1`: Aman
`explanation`	`string`: Justifikasi untuk penetapan skor.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

score

float: Salah satu dari hal berikut:

0: Tidak aman
1: Aman

explanation

string: Justifikasi untuk penetapan skor.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`GroundednessInput`

{
  "groundedness_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string,
      "context": string
    }
  }
}

Parameter	Deskripsi
`metric_spec`	Opsional: GroundednessSpec Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: GroundednessInstance Input evaluasi, yang terdiri dari input inferensi dan respons yang sesuai.
`instance.prediction`	Opsional: `string` Respons LLM.
`instance.context`	Opsional: `string` Teks waktu inferensi yang berisi semua informasi, yang dapat digunakan dalam respons LLM.

`GroundednessResult`

{
  "groundedness_result": {
    "score": float,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`score`	`float`: Salah satu dari hal berikut: `0`: Tidak ditanahkan `1`: Dihubungkan ke ground
`explanation`	`string`: Justifikasi untuk penetapan skor.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

score

float: Salah satu dari hal berikut:

0: Tidak ditanahkan
1: Dihubungkan ke ground

explanation

string: Justifikasi untuk penetapan skor.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`FulfillmentInput`

{
  "fulfillment_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string,
      "instruction": string
    }
  }
}

Parameter
`metric_spec`	Opsional: `FulfillmentSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `FulfillmentInstance` Input evaluasi, yang terdiri dari input inferensi dan respons yang sesuai.
`instance.prediction`	Opsional: `string` Respons LLM.
`instance.instruction`	Opsional: `string` Petunjuk yang digunakan pada waktu inferensi.

`FulfillmentResult`

{
  "fulfillment_result": {
    "score": float,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`score`	`float`: Salah satu dari hal berikut: `1`: Tidak ada fulfillment `2`: Fulfillment buruk `3`: Beberapa fulfillment `4`: Fulfillment yang baik `5`: Menyelesaikan fulfillment
`explanation`	`string`: Justifikasi untuk penetapan skor.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

score

float: Salah satu dari hal berikut:

1: Tidak ada fulfillment
2: Fulfillment buruk
3: Beberapa fulfillment
4: Fulfillment yang baik
5: Menyelesaikan fulfillment

explanation

string: Justifikasi untuk penetapan skor.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`SummarizationQualityInput`

{
  "summarization_quality_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string,
      "instruction": string,
      "context": string,
    }
  }
}

Parameter
`metric_spec`	Opsional: `SummarizationQualitySpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `SummarizationQualityInstance` Input evaluasi, yang terdiri dari input inferensi dan respons yang sesuai.
`instance.prediction`	Opsional: `string` Respons LLM.
`instance.instruction`	Opsional: `string` Petunjuk yang digunakan pada waktu inferensi.
`instance.context`	Opsional: `string` Teks waktu inferensi yang berisi semua informasi, yang dapat digunakan dalam respons LLM.

`SummarizationQualityResult`

{
  "summarization_quality_result": {
    "score": float,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`score`	`float`: Salah satu dari hal berikut: `1`: Sangat buruk `2`: Buruk `3`: Oke `4`: Baik `5`: Sangat baik
`explanation`	`string`: Justifikasi untuk penetapan skor.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

score

float: Salah satu dari hal berikut:

1: Sangat buruk
2: Buruk
3: Oke
4: Baik
5: Sangat baik

explanation

string: Justifikasi untuk penetapan skor.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`PairwiseSummarizationQualityInput`

{
  "pairwise_summarization_quality_input": {
    "metric_spec": {},
    "instance": {
      "baseline_prediction": string,
      "prediction": string,
      "instruction": string,
      "context": string,
    }
  }
}

Parameter
`metric_spec`	Opsional: `PairwiseSummarizationQualitySpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `PairwiseSummarizationQualityInstance` Input evaluasi, yang terdiri dari input inferensi dan respons yang sesuai.
`instance.baseline_prediction`	Opsional: `string` Respons LLM model dasar.
`instance.prediction`	Opsional: `string` Respons LLM model kandidat.
`instance.instruction`	Opsional: `string` Petunjuk yang digunakan pada waktu inferensi.
`instance.context`	Opsional: `string` Teks waktu inferensi yang berisi semua informasi, yang dapat digunakan dalam respons LLM.

`PairwiseSummarizationQualityResult`

{
  "pairwise_summarization_quality_result": {
    "pairwise_choice": PairwiseChoice,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`pairwise_choice`	`PairwiseChoice`: Enum dengan kemungkinan nilai sebagai berikut: `BASELINE`: Prediksi dasar pengukuran lebih baik `CANDIDATE`: Prediksi kandidat lebih baik `TIE`: Ikatan antara prediksi Dasar Pengukuran dan Kandidat.
`explanation`	`string`: Justifikasi untuk penetapan pairwise_choice.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

pairwise_choice

PairwiseChoice: Enum dengan kemungkinan nilai sebagai berikut:

BASELINE: Prediksi dasar pengukuran lebih baik
CANDIDATE: Prediksi kandidat lebih baik
TIE: Ikatan antara prediksi Dasar Pengukuran dan Kandidat.

explanation

string: Justifikasi untuk penetapan pairwise_choice.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`SummarizationHelpfulnessInput`

{
  "summarization_helpfulness_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string,
      "instruction": string,
      "context": string,
    }
  }
}

Parameter
`metric_spec`	Opsional: `SummarizationHelpfulnessSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `SummarizationHelpfulnessInstance` Input evaluasi, yang terdiri dari input inferensi dan respons yang sesuai.
`instance.prediction`	Opsional: `string` Respons LLM.
`instance.instruction`	Opsional: `string` Petunjuk yang digunakan pada waktu inferensi.
`instance.context`	Opsional: `string` Teks waktu inferensi yang berisi semua informasi, yang dapat digunakan dalam respons LLM.

`SummarizationHelpfulnessResult`

{
  "summarization_helpfulness_result": {
    "score": float,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`score`	`float`: Salah satu dari hal berikut: `1`: Tidak membantu `2`: Agak tidak membantu `3`: Netral `4`: Cukup membantu `5`: Bermanfaat
`explanation`	`string`: Justifikasi untuk penetapan skor.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

score

float: Salah satu dari hal berikut:

1: Tidak membantu
2: Agak tidak membantu
3: Netral
4: Cukup membantu
5: Bermanfaat

explanation

string: Justifikasi untuk penetapan skor.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`SummarizationVerbosityInput`

{
  "summarization_verbosity_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string,
      "instruction": string,
      "context": string,
    }
  }
}

Parameter
`metric_spec`	Opsional: `SummarizationVerbositySpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `SummarizationVerbosityInstance` Input evaluasi, yang terdiri dari input inferensi dan respons yang sesuai.
`instance.prediction`	Opsional: `string` Respons LLM.
`instance.instruction`	Opsional: `string` Petunjuk yang digunakan pada waktu inferensi.
`instance.context`	Opsional: `string` Teks waktu inferensi yang berisi semua informasi, yang dapat digunakan dalam respons LLM.

`SummarizationVerbosityResult`

{
  "summarization_verbosity_result": {
    "score": float,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`score`	`float`. Salah satu dari berikut ini: `-2`: Pendek `-1`: Agak ringkas `0`: Optimal `1`: Agak panjang `2`: Panjang
`explanation`	`string`: Justifikasi untuk penetapan skor.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

score

float. Salah satu dari berikut ini:

-2: Pendek
-1: Agak ringkas
0: Optimal
1: Agak panjang
2: Panjang

explanation

string: Justifikasi untuk penetapan skor.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`QuestionAnsweringQualityInput`

{
  "question_answering_quality_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string,
      "instruction": string,
      "context": string,
    }
  }
}

Parameter
`metric_spec`	Opsional: `QuestionAnsweringQualitySpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `QuestionAnsweringQualityInstance` Input evaluasi, yang terdiri dari input inferensi dan respons yang sesuai.
`instance.prediction`	Opsional: `string` Respons LLM.
`instance.instruction`	Opsional: `string` Petunjuk yang digunakan pada waktu inferensi.
`instance.context`	Opsional: `string` Teks waktu inferensi yang berisi semua informasi, yang dapat digunakan dalam respons LLM.

`QuestionAnsweringQualityResult`

{
  "question_answering_quality_result": {
    "score": float,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`score`	`float`: Salah satu dari hal berikut: `1`: Sangat buruk `2`: Buruk `3`: Oke `4`: Baik `5`: Sangat baik
`explanation`	`string`: Justifikasi untuk penetapan skor.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

score

float: Salah satu dari hal berikut:

1: Sangat buruk
2: Buruk
3: Oke
4: Baik
5: Sangat baik

explanation

string: Justifikasi untuk penetapan skor.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`PairwiseQuestionAnsweringQualityInput`

{
  "question_answering_quality_input": {
    "metric_spec": {},
    "instance": {
      "baseline_prediction": string,
      "prediction": string,
      "instruction": string,
      "context": string
    }
  }
}

Parameter
`metric_spec`	Opsional: `QuestionAnsweringQualitySpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `QuestionAnsweringQualityInstance` Input evaluasi, yang terdiri dari input inferensi dan respons yang sesuai.
`instance.baseline_prediction`	Opsional: `string` Respons LLM model dasar.
`instance.prediction`	Opsional: `string` Respons LLM model kandidat.
`instance.instruction`	Opsional: `string` Petunjuk yang digunakan pada waktu inferensi.
`instance.context`	Opsional: `string` Teks waktu inferensi yang berisi semua informasi, yang dapat digunakan dalam respons LLM.

`PairwiseQuestionAnsweringQualityResult`

{
  "pairwise_question_answering_quality_result": {
    "pairwise_choice": PairwiseChoice,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`pairwise_choice`	`PairwiseChoice`: Enum dengan kemungkinan nilai sebagai berikut: `BASELINE`: Prediksi dasar pengukuran lebih baik `CANDIDATE`: Prediksi kandidat lebih baik `TIE`: Ikatan antara prediksi Dasar Pengukuran dan Kandidat.
`explanation`	`string`: Justifikasi untuk penetapan `pairwise_choice`.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

pairwise_choice

PairwiseChoice: Enum dengan kemungkinan nilai sebagai berikut:

BASELINE: Prediksi dasar pengukuran lebih baik
CANDIDATE: Prediksi kandidat lebih baik
TIE: Ikatan antara prediksi Dasar Pengukuran dan Kandidat.

explanation

string: Justifikasi untuk penetapan pairwise_choice.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`QuestionAnsweringRelevanceInput`

{
  "question_answering_quality_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string,
      "instruction": string,
      "context": string
    }
  }
}

Parameter
`metric_spec`	Opsional: `QuestionAnsweringRelevanceSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `QuestionAnsweringRelevanceInstance` Input evaluasi, yang terdiri dari input inferensi dan respons yang sesuai.
`instance.prediction`	Opsional: `string` Respons LLM.
`instance.instruction`	Opsional: `string` Petunjuk yang digunakan pada waktu inferensi.
`instance.context`	Opsional: `string` Teks waktu inferensi yang berisi semua informasi, yang dapat digunakan dalam respons LLM.

`QuestionAnsweringRelevancyResult`

{
  "question_answering_relevancy_result": {
    "score": float,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`score`	`float`: Salah satu dari hal berikut: `1`: Tidak relevan `2`: Kurang relevan `3`: Netral `4`: Agak relevan `5`: Relevan
`explanation`	`string`: Justifikasi untuk penetapan skor.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

score

float: Salah satu dari hal berikut:

1: Tidak relevan
2: Kurang relevan
3: Netral
4: Agak relevan
5: Relevan

explanation

string: Justifikasi untuk penetapan skor.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`QuestionAnsweringHelpfulnessInput`

{
  "question_answering_helpfulness_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string,
      "instruction": string,
      "context": string
    }
  }
}

Parameter
`metric_spec`	Opsional: `QuestionAnsweringHelpfulnessSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `QuestionAnsweringHelpfulnessInstance` Input evaluasi, yang terdiri dari input inferensi dan respons yang sesuai.
`instance.prediction`	Opsional: `string` Respons LLM.
`instance.instruction`	Opsional: `string` Petunjuk yang digunakan pada waktu inferensi.
`instance.context`	Opsional: `string` Teks waktu inferensi yang berisi semua informasi, yang dapat digunakan dalam respons LLM.

`QuestionAnsweringHelpfulnessResult`

{
  "question_answering_helpfulness_result": {
    "score": float,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`score`	`float`: Salah satu dari hal berikut: `1`: Tidak membantu `2`: Agak tidak membantu `3`: Netral `4`: Cukup membantu `5`: Bermanfaat
`explanation`	`string`: Justifikasi untuk penetapan skor.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

score

float: Salah satu dari hal berikut:

1: Tidak membantu
2: Agak tidak membantu
3: Netral
4: Cukup membantu
5: Bermanfaat

explanation

string: Justifikasi untuk penetapan skor.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`QuestionAnsweringCorrectnessInput`

{
  "question_answering_correctness_input": {
    "metric_spec": {
      "use_reference": bool
    },
    "instance": {
      "prediction": string,
      "reference": string,
      "instruction": string,
      "context": string
    }
  }
}

Parameter
`metric_spec`	Opsional: `QuestionAnsweringCorrectnessSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`metric_spec.use_reference`	Opsional: `bool` Apakah referensi digunakan atau tidak dalam evaluasi.
`instance`	Opsional: `QuestionAnsweringCorrectnessInstance` Input evaluasi, yang terdiri dari input inferensi dan respons yang sesuai.
`instance.prediction`	Opsional: `string` Respons LLM.
`instance.reference`	Opsional: `string` Respons LLM emas untuk referensi.
`instance.instruction`	Opsional: `string` Petunjuk yang digunakan pada waktu inferensi.
`instance.context`	Opsional: `string` Teks waktu inferensi yang berisi semua informasi, yang dapat digunakan dalam respons LLM.

`QuestionAnsweringCorrectnessResult`

{
  "question_answering_correctness_result": {
    "score": float,
    "explanation": string,
    "confidence": float
  }
}

Output

Output
`score`	`float`: Salah satu dari hal berikut: `0`: Salah `1`: Benar
`explanation`	`string`: Justifikasi untuk penetapan skor.
`confidence`	`float`: `[0, 1]` Skor keyakinan hasil kita.

score

float: Salah satu dari hal berikut:

0: Salah
1: Benar

explanation

string: Justifikasi untuk penetapan skor.

confidence

float: [0, 1] Skor keyakinan hasil kita.

`PointwiseMetricInput`

{
  "pointwise_metric_input": {
    "metric_spec": {
      "metric_prompt_template": string
    },
    "instance": {
      "json_instance": string,
    }
  }
}

Parameter
`metric_spec`	Wajib: `PointwiseMetricSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`metric_spec.metric_prompt_template`	Wajib: `string` Template perintah yang menentukan metrik. Ini dirender oleh key-value pair di instance.json_instance
`instance`	Wajib: `PointwiseMetricInstance` Input evaluasi, yang terdiri dari json_instance.
`instance.json_instance`	Opsional: `string` Pasangan nilai kunci dalam format JSON. Misalnya, {"key_1": "value_1", "key_2": "value_2"}. Ini digunakan untuk merender metric_spec.metric_prompt_template.

`PointwiseMetricResult`

{
  "pointwise_metric_result": {
    "score": float,
    "explanation": string,
  }
}

Output
`score`	`float`: Skor untuk hasil evaluasi metrik pointwise.
`explanation`	`string`: Justifikasi untuk penetapan skor.

`PairwiseMetricInput`

{
  "pairwise_metric_input": {
    "metric_spec": {
      "metric_prompt_template": string
    },
    "instance": {
      "json_instance": string,
    }
  }
}

Parameter
`metric_spec`	Wajib: `PairwiseMetricSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`metric_spec.metric_prompt_template`	Wajib: `string` Template perintah yang menentukan metrik. Ini dirender oleh pasangan nilai kunci di instance.json_instance
`instance`	Wajib: `PairwiseMetricInstance` Input evaluasi, yang terdiri dari json_instance.
`instance.json_instance`	Opsional: `string` Pasangan nilai kunci dalam format JSON. Misalnya, {"key_1": "value_1", "key_2": "value_2"}. Ini digunakan untuk merender metric_spec.metric_prompt_template.

`PairwiseMetricResult`

{
  "pairwise_metric_result": {
    "score": float,
    "explanation": string,
  }
}

Output
`score`	`float`: Skor untuk hasil evaluasi metrik berpasangan.
`explanation`	`string`: Justifikasi untuk penetapan skor.

`ToolCallValidInput`

{
  "tool_call_valid_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string,
      "reference": string
    }
  }
}

Parameter
`metric_spec`	Opsional: `ToolCallValidSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `ToolCallValidInstance` Input evaluasi, yang terdiri dari respons dan referensi LLM.
`instance.prediction`	Opsional: `string` Respons LLM model kandidat, yang merupakan string serialisasi JSON yang berisi kunci `content` dan `tool_calls`. Nilai `content` adalah output teks dari model. Nilai `tool_call` adalah string serialisasi JSON dari daftar panggilan alat. Contohnya adalah: { "content": "", "tool_calls": [ { "name": "book_tickets", "arguments": { "movie": "Mission Impossible Dead Reckoning Part 1", "theater": "Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30", "num_tix": "2" } } ] }
`instance.reference`	Opsional: `string` Output model emas dalam format yang sama dengan prediksi.

`ToolCallValidResults`

{
  "tool_call_valid_results": {
    "tool_call_valid_metric_values": [
      {
        "score": float
      }
    ]
  }
}

Output

Output
`tool_call_valid_metric_values`	`ToolCallValidMetricValue` berulang: Hasil evaluasi per input instance.
`tool_call_valid_metric_values.score`	`float`: Salah satu dari hal berikut: `0`: Panggilan alat tidak valid `1`: Panggilan alat yang valid

tool_call_valid_metric_values

ToolCallValidMetricValue berulang: Hasil evaluasi per input instance.

tool_call_valid_metric_values.score

float: Salah satu dari hal berikut:

0: Panggilan alat tidak valid
1: Panggilan alat yang valid

`ToolNameMatchInput`

{
  "tool_name_match_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string,
      "reference": string
    }
  }
}

Parameter
`metric_spec`	Opsional: `ToolNameMatchSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `ToolNameMatchInstance` Input evaluasi, yang terdiri dari respons dan referensi LLM.
`instance.prediction`	Opsional: `string` Respons LLM model kandidat, yang merupakan string serialisasi JSON yang berisi kunci `content` dan `tool_calls`. Nilai `content` adalah output teks dari model. Nilai `tool_call` adalah string serialisasi JSON dari daftar panggilan alat.
`instance.reference`	Opsional: `string` Output model emas dalam format yang sama dengan prediksi.

`ToolNameMatchResults`

{
  "tool_name_match_results": {
    "tool_name_match_metric_values": [
      {
        "score": float
      }
    ]
  }
}

Output

Output
`tool_name_match_metric_values`	`ToolNameMatchMetricValue` berulang: Hasil evaluasi per input instance.
`tool_name_match_metric_values.score`	`float`: Salah satu dari hal berikut: `0`: Nama panggilan alat tidak cocok dengan referensi. `1`: Nama panggilan alat cocok dengan referensi.

tool_name_match_metric_values

ToolNameMatchMetricValue berulang: Hasil evaluasi per input instance.

tool_name_match_metric_values.score

float: Salah satu dari hal berikut:

0: Nama panggilan alat tidak cocok dengan referensi.
1: Nama panggilan alat cocok dengan referensi.

`ToolParameterKeyMatchInput`

{
  "tool_parameter_key_match_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string,
      "reference": string
    }
  }
}

Parameter
`metric_spec`	Opsional: `ToolParameterKeyMatchSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `ToolParameterKeyMatchInstance` Input evaluasi, yang terdiri dari respons dan referensi LLM.
`instance.prediction`	Opsional: `string` Respons LLM model kandidat, yang merupakan string serialisasi JSON yang berisi kunci `content` dan `tool_calls`. Nilai `content` adalah output teks dari model. Nilai `tool_call` adalah string serialisasi JSON dari daftar panggilan alat.
`instance.reference`	Opsional: `string` Output model emas dalam format yang sama dengan prediksi.

`ToolParameterKeyMatchResults`

{
  "tool_parameter_key_match_results": {
    "tool_parameter_key_match_metric_values": [
      {
        "score": float
      }
    ]
  }
}

Output
`tool_parameter_key_match_metric_values`	`ToolParameterKeyMatchMetricValue` berulang: Hasil evaluasi per input instance.
`tool_parameter_key_match_metric_values.score`	`float`: `[0, 1]`, dengan skor yang lebih tinggi berarti lebih banyak parameter yang cocok dengan nama parameter referensi.

`ToolParameterKVMatchInput`

{
  "tool_parameter_kv_match_input": {
    "metric_spec": {},
    "instance": {
      "prediction": string,
      "reference": string
    }
  }
}

Parameter
`metric_spec`	Opsional: `ToolParameterKVMatchSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`instance`	Opsional: `ToolParameterKVMatchInstance` Input evaluasi, yang terdiri dari respons dan referensi LLM.
`instance.prediction`	Opsional: `string` Respons LLM model kandidat, yang merupakan string serialisasi JSON yang berisi kunci `content` dan `tool_calls`. Nilai `content` adalah output teks dari model. Nilai `tool_call` adalah string serialisasi JSON dari daftar panggilan alat.
`instance.reference`	Opsional: `string` Output model emas dalam format yang sama dengan prediksi.

`ToolParameterKVMatchResults`

{
  "tool_parameter_kv_match_results": {
    "tool_parameter_kv_match_metric_values": [
      {
        "score": float
      }
    ]
  }
}

Output
`tool_parameter_kv_match_metric_values`	`ToolParameterKVMatchMetricValue` berulang: Hasil evaluasi per input instance.
`tool_parameter_kv_match_metric_values.score`	`float`: `[0, 1]`, dengan skor yang lebih tinggi berarti lebih banyak parameter yang cocok dengan nama dan nilai parameter referensi.

`CometInput`

{
  "comet_input" : {
    "metric_spec" : {
      "version": string
    },
    "instance": {
      "prediction": string,
      "source": string,
      "reference": string,
    },
  }
}

Parameter
`metric_spec`	Opsional: `CometSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`metric_spec.version`	Opsional: `string` `COMET_22_SRC_REF`: COMET 22 untuk terjemahan, sumber, dan referensi. Model ini mengevaluasi terjemahan (prediksi) menggunakan ketiga input tersebut.
`metric_spec.source_language`	Opsional: `string` Bahasa sumber dalam format BCP-47. Misalnya, "es".
`metric_spec.target_language`	Opsional: `string` Bahasa target dalam format BCP-47. Misalnya, "es"
`instance`	Opsional: `CometInstance` Input evaluasi, yang terdiri dari respons dan referensi LLM. Kolom yang tepat yang digunakan untuk evaluasi bergantung pada versi COMET.
`instance.prediction`	Opsional: `string` Respons LLM model kandidat. Ini adalah output LLM yang sedang dievaluasi.
`instance.source`	Opsional: `string` Teks sumber. Ini dalam bahasa asli yang digunakan untuk menerjemahkan prediksi.
`instance.reference`	Opsional: `string` Kebenaran dasar yang digunakan untuk dibandingkan dengan prediksi. Ini dalam bahasa yang sama dengan prediksi.

`CometResult`

{
  "comet_result" : {
    "score": float
  }
}

Output
`score`	`float`: `[0, 1]`, dengan 1 mewakili terjemahan yang sempurna.

`MetricxInput`

{
  "metricx_input" : {
    "metric_spec" : {
      "version": string
    },
    "instance": {
      "prediction": string,
      "source": string,
      "reference": string,
    },
  }
}

Parameter
`metric_spec`	Opsional: `MetricxSpec` Spesifikasi metrik, yang menentukan perilaku metrik.
`metric_spec.version`	Opsional: `string` Salah satu dari berikut ini: `METRICX_24_REF`: MetricX 24 untuk terjemahan dan referensi. Model ini mengevaluasi prediksi (terjemahan) dengan membandingkannya dengan input teks referensi yang diberikan. `METRICX_24_SRC`: MetricX 24 untuk terjemahan dan sumber. Model ini mengevaluasi terjemahan (prediksi) berdasarkan Estimasi Kualitas (QE), tanpa input teks referensi. `METRICX_24_SRC_REF`: MetricX 24 untuk terjemahan, sumber, dan referensi. Model ini mengevaluasi terjemahan (prediksi) menggunakan ketiga input tersebut.
`metric_spec.source_language`	Opsional: `string` Bahasa sumber dalam format BCP-47. Misalnya, "es".
`metric_spec.target_language`	Opsional: `string` Bahasa target dalam format BCP-47. Misalnya, "es".
`instance`	Opsional: `MetricxInstance` Input evaluasi, yang terdiri dari respons dan referensi LLM. Kolom yang tepat yang digunakan untuk evaluasi bergantung pada versi MetricX.
`instance.prediction`	Opsional: `string` Respons LLM model kandidat. Ini adalah output LLM yang sedang dievaluasi.
`instance.source`	Opsional: `string` Teks sumber yang dalam bahasa asli yang digunakan untuk menerjemahkan prediksi.
`instance.reference`	Opsional: `string` Kebenaran dasar yang digunakan untuk dibandingkan dengan prediksi. Ini dalam bahasa yang sama dengan prediksi.

`MetricxResult`

{
  "metricx_result" : {
    "score": float
  }
}

Output
`score`	`float`: `[0, 25]`, dengan 0 mewakili terjemahan yang sempurna.

Contoh

Mengevaluasi output

Contoh berikut menunjukkan cara memanggil Gen AI Evaluation API untuk mengevaluasi output LLM menggunakan berbagai metrik evaluasi, termasuk:

summarization_quality
groundedness
fulfillment
summarization_helpfulness
summarization_verbosity

Python

import pandas as pd

import vertexai
from vertexai.preview.evaluation import EvalTask, MetricPromptTemplateExamples

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

eval_dataset = pd.DataFrame(
    {
        "instruction": [
            "Summarize the text in one sentence.",
            "Summarize the text such that a five-year-old can understand.",
        ],
        "context": [
            """As part of a comprehensive initiative to tackle urban congestion and foster
            sustainable urban living, a major city has revealed ambitious plans for an
            extensive overhaul of its public transportation system. The project aims not
            only to improve the efficiency and reliability of public transit but also to
            reduce the city\'s carbon footprint and promote eco-friendly commuting options.
            City officials anticipate that this strategic investment will enhance
            accessibility for residents and visitors alike, ushering in a new era of
            efficient, environmentally conscious urban transportation.""",
            """A team of archaeologists has unearthed ancient artifacts shedding light on a
            previously unknown civilization. The findings challenge existing historical
            narratives and provide valuable insights into human history.""",
        ],
        "response": [
            "A major city is revamping its public transportation system to fight congestion, reduce emissions, and make getting around greener and easier.",
            "Some people who dig for old things found some very special tools and objects that tell us about people who lived a long, long time ago! What they found is like a new puzzle piece that helps us understand how people used to live.",
        ],
    }
)

eval_task = EvalTask(
    dataset=eval_dataset,
    metrics=[
        MetricPromptTemplateExamples.Pointwise.SUMMARIZATION_QUALITY,
        MetricPromptTemplateExamples.Pointwise.GROUNDEDNESS,
        MetricPromptTemplateExamples.Pointwise.VERBOSITY,
        MetricPromptTemplateExamples.Pointwise.INSTRUCTION_FOLLOWING,
    ],
)

prompt_template = (
    "Instruction: {instruction}. Article: {context}. Summary: {response}"
)
result = eval_task.evaluate(prompt_template=prompt_template)

print("Summary Metrics:\n")

for key, value in result.summary_metrics.items():
    print(f"{key}: \t{value}")

print("\n\nMetrics Table:\n")
print(result.metrics_table)
# Example response:
# Summary Metrics:
# row_count:      2
# summarization_quality/mean:     3.5
# summarization_quality/std:      2.1213203435596424
# ...

Go

import (
	context_pkg "context"
	"fmt"
	"io"

	aiplatform "cloud.google.com/go/aiplatform/apiv1beta1"
	aiplatformpb "cloud.google.com/go/aiplatform/apiv1beta1/aiplatformpb"
	"google.golang.org/api/option"
)

// evaluateModelResponse evaluates the output of an LLM for groundedness, i.e., how well
// the model response connects with verifiable sources of information
func evaluateModelResponse(w io.Writer, projectID, location string) error {
	// location = "us-central1"
	ctx := context_pkg.Background()
	apiEndpoint := fmt.Sprintf("%s-aiplatform.googleapis.com:443", location)
	client, err := aiplatform.NewEvaluationClient(ctx, option.WithEndpoint(apiEndpoint))

	if err != nil {
		return fmt.Errorf("unable to create aiplatform client: %w", err)
	}
	defer client.Close()

	// evaluate the pre-generated model response against the reference (ground truth)
	responseToEvaluate := `
The city is undertaking a major project to revamp its public transportation system.
This initiative is designed to improve efficiency, reduce carbon emissions, and promote
eco-friendly commuting. The city expects that this investment will enhance accessibility
and usher in a new era of sustainable urban transportation.
`
	reference := `
As part of a comprehensive initiative to tackle urban congestion and foster
sustainable urban living, a major city has revealed ambitious plans for an
extensive overhaul of its public transportation system. The project aims not
only to improve the efficiency and reliability of public transit but also to
reduce the city\'s carbon footprint and promote eco-friendly commuting options.
City officials anticipate that this strategic investment will enhance
accessibility for residents and visitors alike, ushering in a new era of
efficient, environmentally conscious urban transportation.
`
	req := aiplatformpb.EvaluateInstancesRequest{
		Location: fmt.Sprintf("projects/%s/locations/%s", projectID, location),
		// Check the API reference for a full list of supported metric inputs:
		// https://cloud.google.com/vertex-ai/docs/reference/rpc/google.cloud.aiplatform.v1beta1#evaluateinstancesrequest
		MetricInputs: &aiplatformpb.EvaluateInstancesRequest_GroundednessInput{
			GroundednessInput: &aiplatformpb.GroundednessInput{
				MetricSpec: &aiplatformpb.GroundednessSpec{},
				Instance: &aiplatformpb.GroundednessInstance{
					Context:    &reference,
					Prediction: &responseToEvaluate,
				},
			},
		},
	}

	resp, err := client.EvaluateInstances(ctx, &req)
	if err != nil {
		return fmt.Errorf("evaluateInstances failed: %v", err)
	}

	results := resp.GetGroundednessResult()
	fmt.Fprintf(w, "score: %.2f\n", results.GetScore())
	fmt.Fprintf(w, "confidence: %.2f\n", results.GetConfidence())
	fmt.Fprintf(w, "explanation:\n%s\n", results.GetExplanation())
	// Example response:
	// score: 1.00
	// confidence: 1.00
	// explanation:
	// STEP 1: All aspects of the response are found in the context.
	// The response accurately summarizes the city's plan to overhaul its public transportation system, highlighting the goals of ...
	// STEP 2: According to the rubric, the response is scored 1 because all aspects of the response are attributable to the context.

	return nil
}

Mengevaluasi output: kualitas ringkasan berpasangan

Contoh berikut menunjukkan cara memanggil API layanan evaluasi Gen AI untuk mengevaluasi output LLM menggunakan perbandingan kualitas ringkasan berpasangan.

REST

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

PROJECT_ID: Project ID Anda.
LOCATION: Region untuk memproses permintaan.
PREDICTION: Respons LLM.
BASELINE_PREDICTION: Respons LLM model dasar pengukuran.
INSTRUCTION: Petunjuk yang digunakan pada waktu inferensi.
CONTEXT: Teks waktu inferensi yang berisi semua informasi yang relevan, yang dapat digunakan dalam respons LLM.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \

Isi JSON permintaan:

{
  "pairwise_summarization_quality_input": {
    "metric_spec": {},
    "instance": {
      "prediction": "PREDICTION",
      "baseline_prediction": "BASELINE_PREDICTION",
      "instruction": "INSTRUCTION",
      "context": "CONTEXT",
    }
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI dengan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login , atau dengan menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke gcloud CLI . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \"

PowerShell

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI dengan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \" | Select-Object -Expand Content

Python

Vertex AI SDK untuk Python

Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.

import pandas as pd

import vertexai
from vertexai.generative_models import GenerativeModel
from vertexai.evaluation import (
    EvalTask,
    PairwiseMetric,
    MetricPromptTemplateExamples,
)

# TODO(developer): Update & uncomment line below
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

prompt = """
Summarize the text such that a five-year-old can understand.

# Text

As part of a comprehensive initiative to tackle urban congestion and foster
sustainable urban living, a major city has revealed ambitious plans for an
extensive overhaul of its public transportation system. The project aims not
only to improve the efficiency and reliability of public transit but also to
reduce the city\'s carbon footprint and promote eco-friendly commuting options.
City officials anticipate that this strategic investment will enhance
accessibility for residents and visitors alike, ushering in a new era of
efficient, environmentally conscious urban transportation.
"""

eval_dataset = pd.DataFrame({"prompt": [prompt]})

# Baseline model for pairwise comparison
baseline_model = GenerativeModel("gemini-2.0-flash-lite-001")

# Candidate model for pairwise comparison
candidate_model = GenerativeModel(
    "gemini-2.0-flash-001", generation_config={"temperature": 0.4}
)

prompt_template = MetricPromptTemplateExamples.get_prompt_template(
    "pairwise_summarization_quality"
)

summarization_quality_metric = PairwiseMetric(
    metric="pairwise_summarization_quality",
    metric_prompt_template=prompt_template,
    baseline_model=baseline_model,
)

eval_task = EvalTask(
    dataset=eval_dataset,
    metrics=[summarization_quality_metric],
    experiment="pairwise-experiment",
)
result = eval_task.evaluate(model=candidate_model)

baseline_model_response = result.metrics_table["baseline_model_response"].iloc[0]
candidate_model_response = result.metrics_table["response"].iloc[0]
winner_model = result.metrics_table[
    "pairwise_summarization_quality/pairwise_choice"
].iloc[0]
explanation = result.metrics_table[
    "pairwise_summarization_quality/explanation"
].iloc[0]

print(f"Baseline's story:\n{baseline_model_response}")
print(f"Candidate's story:\n{candidate_model_response}")
print(f"Winner: {winner_model}")
print(f"Explanation: {explanation}")
# Example response:
# Baseline's story:
# A big city wants to make it easier for people to get around without using cars! They're going to make buses and trains ...
#
# Candidate's story:
# A big city wants to make it easier for people to get around without using cars! ... This will help keep the air clean ...
#
# Winner: CANDIDATE
# Explanation: Both responses adhere to the prompt's constraints, are grounded in the provided text, and ... However, Response B ...

Go

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Go di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Go Vertex AI.

Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

import (
	context_pkg "context"
	"fmt"
	"io"

	aiplatform "cloud.google.com/go/aiplatform/apiv1beta1"
	aiplatformpb "cloud.google.com/go/aiplatform/apiv1beta1/aiplatformpb"
	"google.golang.org/api/option"
)

// pairwiseEvaluation lets the judge model to compare the responses of two models and pick the better one
func pairwiseEvaluation(w io.Writer, projectID, location string) error {
	// location = "us-central1"
	ctx := context_pkg.Background()
	apiEndpoint := fmt.Sprintf("%s-aiplatform.googleapis.com:443", location)
	client, err := aiplatform.NewEvaluationClient(ctx, option.WithEndpoint(apiEndpoint))

	if err != nil {
		return fmt.Errorf("unable to create aiplatform client: %w", err)
	}
	defer client.Close()

	context := `
As part of a comprehensive initiative to tackle urban congestion and foster
sustainable urban living, a major city has revealed ambitious plans for an
extensive overhaul of its public transportation system. The project aims not
only to improve the efficiency and reliability of public transit but also to
reduce the city\'s carbon footprint and promote eco-friendly commuting options.
City officials anticipate that this strategic investment will enhance
accessibility for residents and visitors alike, ushering in a new era of
efficient, environmentally conscious urban transportation.
`
	instruction := "Summarize the text such that a five-year-old can understand."
	baselineResponse := `
The city wants to make it easier for people to get around without using cars.
They're going to make the buses and trains better and faster, so people will want to
use them more. This will help the air be cleaner and make the city a better place to live.
`
	candidateResponse := `
The city is making big changes to how people get around. They want to make the buses and
trains work better and be easier for everyone to use. This will also help the environment
by getting people to use less gas. The city thinks these changes will make it easier for
everyone to get where they need to go.
`

	req := aiplatformpb.EvaluateInstancesRequest{
		Location: fmt.Sprintf("projects/%s/locations/%s", projectID, location),
		MetricInputs: &aiplatformpb.EvaluateInstancesRequest_PairwiseSummarizationQualityInput{
			PairwiseSummarizationQualityInput: &aiplatformpb.PairwiseSummarizationQualityInput{
				MetricSpec: &aiplatformpb.PairwiseSummarizationQualitySpec{},
				Instance: &aiplatformpb.PairwiseSummarizationQualityInstance{
					Context:            &context,
					Instruction:        &instruction,
					Prediction:         &candidateResponse,
					BaselinePrediction: &baselineResponse,
				},
			},
		},
	}

	resp, err := client.EvaluateInstances(ctx, &req)
	if err != nil {
		return fmt.Errorf("evaluateInstances failed: %v", err)
	}

	results := resp.GetPairwiseSummarizationQualityResult()
	fmt.Fprintf(w, "choice: %s\n", results.GetPairwiseChoice())
	fmt.Fprintf(w, "confidence: %.2f\n", results.GetConfidence())
	fmt.Fprintf(w, "explanation:\n%s\n", results.GetExplanation())
	// Example response:
	// choice: BASELINE
	// confidence: 0.50
	// explanation:
	// BASELINE response is easier to understand. For example, the phrase "..." is easier to understand than "...". Thus, BASELINE response is ...

	return nil
}

Mendapatkan skor ROUGE

Contoh berikut memanggil API layanan evaluasi AI Generatif untuk mendapatkan skor ROUGE prediksi, yang dihasilkan oleh sejumlah input. Input ROUGE menggunakan metric_spec, yang menentukan perilaku metrik.

REST

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

PROJECT_ID: Project ID Anda.
LOCATION: Region untuk memproses permintaan.
PREDICTION: Respons LLM.
REFERENCE: Respons LLM emas untuk referensi.
ROUGE_TYPE: Penghitungan yang digunakan untuk menentukan skor rouge. Lihat metric_spec.rouge_type untuk mengetahui nilai yang dapat diterima.
USE_STEMMER: Menentukan apakah Porter stemmer digunakan untuk menghapus akhiran kata guna meningkatkan pencocokan. Untuk nilai yang dapat diterima, lihat metric_spec.use_stemmer.
SPLIT_SUMMARIES: Menentukan apakah baris baru ditambahkan di antara kalimat rougeLsum. Untuk nilai yang dapat diterima, lihat metric_spec.split_summaries .

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \

Isi JSON permintaan:

{
  "rouge_input": {
    "instances": {
      "prediction": "PREDICTION",
      "reference": "REFERENCE.",
    },
    "metric_spec": {
      "rouge_type": "ROUGE_TYPE",
      "use_stemmer": USE_STEMMER,
      "split_summaries": SPLIT_SUMMARIES,
    }
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \" | Select-Object -Expand Content

Python

Vertex AI SDK untuk Python

import pandas as pd

import vertexai
from vertexai.preview.evaluation import EvalTask

# TODO(developer): Update & uncomment line below
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

reference_summarization = """
The Great Barrier Reef, the world's largest coral reef system, is
located off the coast of Queensland, Australia. It's a vast
ecosystem spanning over 2,300 kilometers with thousands of reefs
and islands. While it harbors an incredible diversity of marine
life, including endangered species, it faces serious threats from
climate change, ocean acidification, and coral bleaching."""

# Compare pre-generated model responses against the reference (ground truth).
eval_dataset = pd.DataFrame(
    {
        "response": [
            """The Great Barrier Reef, the world's largest coral reef system located
        in Australia, is a vast and diverse ecosystem. However, it faces serious
        threats from climate change, ocean acidification, and coral bleaching,
        endangering its rich marine life.""",
            """The Great Barrier Reef, a vast coral reef system off the coast of
        Queensland, Australia, is the world's largest. It's a complex ecosystem
        supporting diverse marine life, including endangered species. However,
        climate change, ocean acidification, and coral bleaching are serious
        threats to its survival.""",
            """The Great Barrier Reef, the world's largest coral reef system off the
        coast of Australia, is a vast and diverse ecosystem with thousands of
        reefs and islands. It is home to a multitude of marine life, including
        endangered species, but faces serious threats from climate change, ocean
        acidification, and coral bleaching.""",
        ],
        "reference": [reference_summarization] * 3,
    }
)
eval_task = EvalTask(
    dataset=eval_dataset,
    metrics=[
        "rouge_1",
        "rouge_2",
        "rouge_l",
        "rouge_l_sum",
    ],
)
result = eval_task.evaluate()

print("Summary Metrics:\n")
for key, value in result.summary_metrics.items():
    print(f"{key}: \t{value}")

print("\n\nMetrics Table:\n")
print(result.metrics_table)
# Example response:
#
# Summary Metrics:
#
# row_count:      3
# rouge_1/mean:   0.7191161666666667
# rouge_1/std:    0.06765143922270488
# rouge_2/mean:   0.5441118566666666
# ...
# Metrics Table:
#
#                                        response                         reference  ...  rouge_l/score  rouge_l_sum/score
# 0  The Great Barrier Reef, the world's ...  \n    The Great Barrier Reef, the ...  ...       0.577320           0.639175
# 1  The Great Barrier Reef, a vast coral...  \n    The Great Barrier Reef, the ...  ...       0.552381           0.666667
# 2  The Great Barrier Reef, the world's ...  \n    The Great Barrier Reef, the ...  ...       0.774775           0.774775

Go

Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Go di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Go Vertex AI.

Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.

import (
	"context"
	"fmt"
	"io"

	aiplatform "cloud.google.com/go/aiplatform/apiv1beta1"
	aiplatformpb "cloud.google.com/go/aiplatform/apiv1beta1/aiplatformpb"
	"google.golang.org/api/option"
)

// getROUGEScore evaluates a model response against a reference (ground truth) using the ROUGE metric
func getROUGEScore(w io.Writer, projectID, location string) error {
	// location = "us-central1"
	ctx := context.Background()
	apiEndpoint := fmt.Sprintf("%s-aiplatform.googleapis.com:443", location)
	client, err := aiplatform.NewEvaluationClient(ctx, option.WithEndpoint(apiEndpoint))

	if err != nil {
		return fmt.Errorf("unable to create aiplatform client: %w", err)
	}
	defer client.Close()

	modelResponse := `
The Great Barrier Reef, the world's largest coral reef system located in Australia,
is a vast and diverse ecosystem. However, it faces serious threats from climate change,
ocean acidification, and coral bleaching, endangering its rich marine life.
`
	reference := `
The Great Barrier Reef, the world's largest coral reef system, is
located off the coast of Queensland, Australia. It's a vast
ecosystem spanning over 2,300 kilometers with thousands of reefs
and islands. While it harbors an incredible diversity of marine
life, including endangered species, it faces serious threats from
climate change, ocean acidification, and coral bleaching.
`
	req := aiplatformpb.EvaluateInstancesRequest{
		Location: fmt.Sprintf("projects/%s/locations/%s", projectID, location),
		MetricInputs: &aiplatformpb.EvaluateInstancesRequest_RougeInput{
			RougeInput: &aiplatformpb.RougeInput{
				// Check the API reference for the list of supported ROUGE metric types:
				// https://cloud.google.com/vertex-ai/docs/reference/rpc/google.cloud.aiplatform.v1beta1#rougespec
				MetricSpec: &aiplatformpb.RougeSpec{
					RougeType: "rouge1",
				},
				Instances: []*aiplatformpb.RougeInstance{
					{
						Prediction: &modelResponse,
						Reference:  &reference,
					},
				},
			},
		},
	}

	resp, err := client.EvaluateInstances(ctx, &req)
	if err != nil {
		return fmt.Errorf("evaluateInstances failed: %v", err)
	}

	fmt.Fprintln(w, "evaluation results:")
	fmt.Fprintln(w, resp.GetRougeResults().GetRougeMetricValues())
	// Example response:
	// [score:0.6597938]

	return nil
}

Langkah berikutnya

Untuk dokumentasi mendetail, lihat Menjalankan evaluasi.

API layanan evaluasi AI Generatif Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Contoh sintaksis

curl

Python

Daftar parameter

ExactMatchInput

ExactMatchResults

BleuInput

BleuResults

RougeInput

RougeResults

FluencyInput

FluencyResult

CoherenceInput

CoherenceResult

SafetyInput

SafetyResult

GroundednessInput

GroundednessResult

FulfillmentInput

FulfillmentResult

SummarizationQualityInput

SummarizationQualityResult

PairwiseSummarizationQualityInput

PairwiseSummarizationQualityResult

SummarizationHelpfulnessInput

SummarizationHelpfulnessResult

SummarizationVerbosityInput

SummarizationVerbosityResult

QuestionAnsweringQualityInput

QuestionAnsweringQualityResult

PairwiseQuestionAnsweringQualityInput

PairwiseQuestionAnsweringQualityResult

QuestionAnsweringRelevanceInput

QuestionAnsweringRelevancyResult

QuestionAnsweringHelpfulnessInput

QuestionAnsweringHelpfulnessResult

QuestionAnsweringCorrectnessInput

QuestionAnsweringCorrectnessResult

PointwiseMetricInput

PointwiseMetricResult

PairwiseMetricInput

PairwiseMetricResult

ToolCallValidInput

ToolCallValidResults

ToolNameMatchInput

ToolNameMatchResults

ToolParameterKeyMatchInput

ToolParameterKeyMatchResults

ToolParameterKVMatchInput

ToolParameterKVMatchResults

CometInput

CometResult

MetricxInput

MetricxResult

Contoh

Mengevaluasi output

Python

Go

Mengevaluasi output: kualitas ringkasan berpasangan

REST

curl

PowerShell

Python

Vertex AI SDK untuk Python

Go

Go

Mendapatkan skor ROUGE

REST

curl

PowerShell

Python

Vertex AI SDK untuk Python

Go

Go

Langkah berikutnya

API layanan evaluasi AI Generatif

`ExactMatchInput`

`ExactMatchResults`

`BleuInput`

`BleuResults`

`RougeInput`

`RougeResults`

`FluencyInput`

`FluencyResult`

`CoherenceInput`

`CoherenceResult`

`SafetyInput`

`SafetyResult`

`GroundednessInput`

`GroundednessResult`

`FulfillmentInput`

`FulfillmentResult`

`SummarizationQualityInput`

`SummarizationQualityResult`

`PairwiseSummarizationQualityInput`

`PairwiseSummarizationQualityResult`

`SummarizationHelpfulnessInput`

`SummarizationHelpfulnessResult`

`SummarizationVerbosityInput`

`SummarizationVerbosityResult`

`QuestionAnsweringQualityInput`

`QuestionAnsweringQualityResult`

`PairwiseQuestionAnsweringQualityInput`

`PairwiseQuestionAnsweringQualityResult`

`QuestionAnsweringRelevanceInput`

`QuestionAnsweringRelevancyResult`

`QuestionAnsweringHelpfulnessInput`

`QuestionAnsweringHelpfulnessResult`

`QuestionAnsweringCorrectnessInput`

`QuestionAnsweringCorrectnessResult`

`PointwiseMetricInput`

`PointwiseMetricResult`

`PairwiseMetricInput`

`PairwiseMetricResult`

`ToolCallValidInput`

`ToolCallValidResults`

`ToolNameMatchInput`

`ToolNameMatchResults`

`ToolParameterKeyMatchInput`

`ToolParameterKeyMatchResults`

`ToolParameterKVMatchInput`

`ToolParameterKVMatchResults`

`CometInput`

`CometResult`

`MetricxInput`

`MetricxResult`