自 2025 年 4 月 29 日起，Gemini 1.5 Pro 和 Gemini 1.5 Flash 模型將無法用於先前未使用這些模型的專案，包括新專案。詳情請參閱「模型版本和生命週期」。

本頁面由 Cloud Translation API 翻譯而成。

查看及解讀評估結果

本頁說明如何在執行模型評估後，查看及解讀模型評估結果。

查看評估結果

定義評估工作後，請執行工作來取得評估結果，如下所示：

from vertexai.evaluation import EvalTask

eval_result = EvalTask(
    dataset=DATASET,
    metrics=[METRIC_1, METRIC_2, METRIC_3],
    experiment=EXPERIMENT_NAME,
).evaluate(
    model=MODEL,
    experiment_run=EXPERIMENT_RUN_NAME,
)

EvalResult 類別代表評估執行結果，具有下列屬性：

summary_metrics：評估執行作業的匯總評估指標字典。
metrics_table：pandas.DataFrame 資料表，每列包含評估資料集輸入內容、回應、說明和指標結果。
metadata：評估執行作業的實驗名稱和實驗執行作業名稱。

EvalResult 類別的定義如下：

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: A dictionary of aggregated evaluation metrics for an evaluation run.
      metrics_table: A pandas.DataFrame table containing evaluation dataset inputs,
        responses, explanations, and metric results per row.
      metadata: the experiment name and experiment run name for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

使用輔助函式後，評估結果會顯示在 Colab 筆記本中，如下所示：

摘要指標和以列為準指標的表格

以視覺化方式呈現評估結果

您可以在雷達圖或長條圖中繪製摘要指標，以便視覺化呈現並比較不同評估執行結果。這項示意圖可協助您評估不同的模型和提示範本。

在下列範例中，我們將四個不同提示範本產生的回應，以四個指標 (連貫性、流暢度、遵循指示和整體文字品質) 呈現。從雷達圖和長條圖中，我們可以推斷，在所有四個指標中，提示範本 2 一貫優於其他範本。這點在指令遵循度和文字品質的評分上尤其明顯。根據這項分析，在四個選項中，提示範本 2 似乎是最有效的選擇。

雷達圖表：顯示所有提示範本的連貫性、instruction_following、text_quality 和流暢度分數

長條圖：顯示所有提示範本的連貫性、instruction_following、text_quality 和流暢度的平均值

瞭解指標結果

下表列出 PointwiseMetric、PairwiseMetric 和以運算為基礎的指標，分別在 metrics_table 和 summary_metrics 中包含的不同元件：

`PointwiseMetric`

執行個體層級結果

欄	說明
回應	模型為提示產生的回覆。
分數	根據評分標準和評分量表給予的回覆評分。分數可以是二元值 (0 和 1)、Likert 量表 (1 到 5 或 -2 到 2)，或浮點值 (0.0 到 1.0)。
說明	評審模型給予分數的原因。我們使用思考鏈條推理法，引導判決模型說明每項判決背後的理由。強制判斷模型進行推理，可改善評估準確度。

匯總結果

欄	說明
平均分數	所有執行個體的平均分數。
標準差	所有分數的標準差。

`PairwiseMetric`

執行個體層級結果

欄	說明
回應	候選模型為提示產生的回覆。
baseline_model_response	基準模型針對提示產生的回覆。
pairwise_choice	有較佳回覆的模型。可能的值為 CANDIDATE、BASELINE 或 TIE。
說明	評審模型選擇該項目的原因。

匯總結果

欄	說明
candidate_model_win_rate	判定模型判定候選模型回覆較佳的次數與總回覆次數的比率。範圍介於 0 到 1。
baseline_model_win_rate	判定模型判定基準模型回覆較佳的時間與總回覆時間的比率。範圍介於 0 到 1。

計算指標

執行個體層級結果

欄	說明
回應	系統正在評估的模型回覆。
參考資料	參考回應。
分數	系統會為每組回應和參考資料計算分數。

匯總結果

欄	說明
平均分數	所有執行個體的平均分數。
標準差	所有分數的標準差。

範例

本節的範例說明如何解讀及瞭解評估結果。

範例 1

在第一個範例中，請考慮評估 TEXT_QUALITY 的逐點評估例項。TEXT_QUALITY 指標的點評分數為 4 (評分範圍為 1 到 5)，表示回應良好。此外，評估結果中的說明會指出為何評分模型認為預測結果應獲得 4 分，而非更高或更低的分數。

資料集

prompt：「請以五歲兒童可理解的方式，總結以下文字：社交媒體平台因內容審核政策而遭到反彈\n 知名社交媒體平台因使用者和內容創作者對內容審核政策表達不滿，而陷入爭議。許多使用者指控平台審查機制有偏頗、執行不一致，且壓制特定觀點，因此對平台感到憤怒，並聲稱平台扼殺言論自由。另一方面，該平台聲稱，其政策旨在維持安全且包容的線上環境。這場爭議引發了更廣泛的問題，包括社群媒體在塑造公共論述時所扮演的角色，以及平台在篩選網路內容時的責任。」
response：「使用者對某個網站感到不滿，因為他們認為該網站不公平地限制使用者發布內容。有些人表示網站會阻止他們表達自己的想法。但網站表示，這項做法是為了確保所有人的安全。這讓人們開始思考，網站是否應該控制使用者在線上發表的內容。」

結果

score: 4,
explanation：回覆中的摘要會按照指示，以五歲兒童可理解的方式摘要背景資訊。它以內容為依據，並在摘要中提供重要詳細資料。不過，回覆內容的用詞有些冗長。

範例 2

第二個範例是 PAIRWISE_QUESTION_ANSWERING_QUALITY 的逐對比較評估。pairwise_choice 結果顯示，在提示中回答問題時，評審模型偏好候選回覆「法國是位於西歐的國家」，而非基準回覆「法國是個國家」。與點狀結果類似，系統也會提供說明，說明候選回覆為何優於基準回覆 (在這種情況下，候選回覆更有幫助)。

資料集

prompt：「請根據以下段落回答法國位於何處？法國是位於西歐的國家。法國與比利時、盧森堡、德國、瑞士、義大利、摩納哥、西班牙和安道爾接壤。法國的海岸線沿著英吉利海峽、北海、大西洋和地中海延伸，法國以豐富的歷史、艾菲爾鐵塔等知名地標和美味佳餚聞名，是歐洲和全球重要的文化和經濟大國。」
response: "法國是位於西歐的國家。"
baseline_model_response: "法國是一個國家。",

結果

pairwise_choice：CANDIDATE，
explanation：BASELINE 回應是正確的，但無法完全回答問題。不過，候選回應正確無誤，並提供法國位置的詳細資訊。

後續步驟

試用評估範例筆記本。
瞭解生成式 AI 評估。

查看及解讀評估結果 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

查看評估結果

以視覺化方式呈現評估結果

瞭解指標結果

PointwiseMetric

執行個體層級結果

匯總結果

PairwiseMetric

執行個體層級結果

匯總結果

計算指標

執行個體層級結果

匯總結果

範例

範例 1

資料集

結果

範例 2

資料集

結果

後續步驟

查看及解讀評估結果

`PointwiseMetric`

`PairwiseMetric`