評估模型

訓練模型後,AutoML Translation 會使用 TEST 集評估新模型的品質和準確度。AutoML Translation 會使用 BLEU (雙語評估研究) 分數表示模型品質,進而指出候選文字與參考文字的相似程度。BLEU 分數越接近 1,表示翻譯結果越接近參考文字。

請使用這個資料評估您模型的準備就緒狀態。如要提升模型品質,請考慮新增更多 (且更多樣) 的訓練片段配對。調整資料集後,請使用改善的資料集訓練新模型。

請注意,我們不建議使用 BLEU 分數比較不同語料庫和語言。舉例來說,英文到德文的 BLEU 分數 50,與日文到英文的 BLEU 分數 50 無法比較。許多翻譯專家已改用以模型為基礎的指標方法,這類方法與人工評估的相關性較高,且能更精細地識別錯誤情境。

AutoML Translation 僅支援 BLEU 分數。如要使用模型式指標評估翻譯模型,請參閱 Vertex AI 中的 Gen AI Evaluation Service

取得模型評估結果

  1. 前往 AutoML Translation 主控台。

    前往「翻譯」頁面

  2. 按一下導覽選單中的「模型」,即可查看模型清單。

  3. 按一下要評估的模型。

  4. 按一下「訓練」分頁,即可查看模型的評估指標,例如 BLEU 分數。

測試模型預測

使用 Google Cloud 控制台,比較自訂模型與預設 NMT 模型的翻譯結果。

  1. 前往 AutoML Translation 主控台。

    前往「翻譯」頁面

  2. 按一下導覽選單中的「模型」,即可查看模型清單。

  3. 按一下要測試的模型。

  4. 按一下「預測」分頁標籤。

  5. 在原文語言文字方塊中新增輸入文字。

  6. 按一下 [翻譯]

    AutoML Translation 會顯示自訂模型和 NMT 模型的翻譯結果。

使用新測試集評估及比較模型

您可以在 Google Cloud 控制台中,使用一組新的測試資料重新評估現有模型。在單一評估中,您最多可以納入 5 個不同模型,然後比較結果。

將測試資料以 Tab 分隔值 (TSV) 或翻譯記憶體交換 (TMX) 檔案格式上傳至 Cloud Storage。

AutoML Translation 會根據測試集評估模型,然後產生評估分數。您可以選擇將每個模型的結果儲存為 Cloud Storage bucket 中的 TSV 檔案,每列的格式如下:

Source segment tab Model candidate translation tab Reference translation
  1. 前往 AutoML Translation 主控台。

    前往「翻譯」頁面

  2. 按一下導覽選單中的「模型」,即可查看模型清單。

  3. 按一下要評估的模型。

  4. 按一下「評估」分頁標籤。

  5. 在「評估」分頁中,按一下「新增評估」

  6. 選取要評估及比較的模型,然後按一下「下一步」

    您必須選取目前的模型,且系統預設會選取 Google NMT,您可以取消選取。

  7. 指定「測試集名稱」,方便您區分測試集與其他評估,然後從 Cloud Storage 選取新的測試集。

  8. 點選「下一步」

  9. 如要匯出預測結果,請指定 Cloud Storage 目的地資料夾。

  10. 按一下「開始評估」

    評估完成後,AutoML Translation 會在主控台中以表格格式顯示評估分數。一次只能執行一項評估。如果您指定儲存預測結果的資料夾,AutoML Translation 會將 TSV 檔案寫入該位置,並以相關聯的模型 ID 命名,後面加上測試集名稱。

瞭解 BLEU 分數

BLEU (BiLingual Evaluation Understudy,雙語評估研究) 是用來自動評估機器翻譯譯文的一項指標。BLEU 分數介於 0 到 1 之間,用來評估機器翻譯文字與一組高品質參考翻譯的相似度。值為 0 表示機器翻譯輸出內容與參考翻譯完全沒有重疊 (表示品質較低),值為 1 則表示與參考翻譯完全重疊 (表示品質較高)。

AutoML Translation 會以百分比表示 BLEU 分數,而非介於 0 到 1 之間的小數。

解釋

做為概略指南,下列 BLEU 分數 (表示為百分比,而不是小數) 的解釋仍具有一定的實用價值。

BLEU 分數 解釋
< 10 幾乎沒有用
10 - 19 難以掌握要點
20 - 29 要點明確,但存在大量文法錯誤
30 - 40 品質介於能夠理解與好的翻譯之間
40 - 50 高品質翻譯
50 - 60 品質非常高、適當且流暢的翻譯
> 60 品質通常比人工翻譯高

下列顏色漸層可做為一般量表 BLEU 分數解釋使用:

一般量表可解釋性

數學詳細資料

在數學上,BLEU 分數的定義為:

$$ \text{BLEU} = \underbrace{\vphantom{\prod_i^4}\min\Big(1, \exp\big(1-\frac{\text{reference-length}} {\text{output-length}}\big)\Big)}_{\text{brevity penalty}} \underbrace{\Big(\prod_{i=1}^{4} precision_i\Big)^{1/4}}_{\text{n-gram overlap}} $$

同時

\[ precision_i = \dfrac{\sum_{\text{snt}\in\text{Cand-Corpus}}\sum_{i\in\text{snt}}\min(m^i_{cand}, m^i_{ref})} {w_t^i = \sum_{\text{snt'}\in\text{Cand-Corpus}}\sum_{i'\in\text{snt'}} m^{i'}_{cand}} \]

其中

  • \(m_{cand}^i\hphantom{xi}\) 是候選翻譯中與參考翻譯相符的 i 元語法數量
  • \(m_{ref}^i\hphantom{xxx}\) 是參考翻譯中 i-gram 的數量
  • 是候選翻譯中 i-gram 的總數\(w_t^i\hphantom{m_{max}}\)

公式包含兩部分:簡潔處罰值與 n 元語法重疊。

  • 簡潔處罰值
    如果產生的翻譯與最接近的參考長度相比太短,簡潔處罰值會以指數衰減,對這些翻譯進行處罰。簡潔處罰值彌補了 BLEU 分數缺少查全率機制的缺憾。

  • N 元語法重疊
    N 元語法重疊會計算與參考翻譯中對應 n 元語法相符的一元語法、二元語法、三元語法與四元語法 (i=1,...,4) 數。這個機制會做為查準率指標使用。一元語法說明翻譯的「適當性」,而更長的 n 元語法說明「流暢性」。為免數量過多,會將 n 元語法數降至參考中出現的 n 元語法數上限 (\(m_{ref}^n\))。

範例

計算中 \(precision_1\)

請考慮下列參考語句與候選翻譯:

參考資料: the cat is on the mat
候選人: the the the cat mat

首先要計算參考與候選中每個一元語法的出現次數。請注意,BLEU 指標區分大小寫。

一元語法 \(m_{cand}^i\hphantom{xi}\) \(m_{ref}^i\hphantom{xxx}\) \(\min(m^i_{cand}, m^i_{ref})\)
the 3 2 2
cat 1 1 1
is 0 1 0
on 0 1 0
mat 1 1 1

候選字詞中的一元語法總數 (\(w_t^1\)) 為 5,因此 \(precision_1\) = (2 + 1 + 1)/5 = 0.8。

計算 BLEU 分數

參考資料:     The NASA Opportunity rover is battling a massive dust storm on Mars .
候選人 1: The Opportunity rover is combating a big sandstorm on Mars .
候選人 2: A NASA rover is fighting a massive storm on Mars .

上述範例包含一個參照和兩個候選翻譯。 如上圖所示,計算 BLEU 分數前會先將句子符記化,例如句尾的句號會視為獨立符記。

如要計算每個翻譯的 BLEU 分數,我們會計算下列統計資料。

  • N 元語法查準率
    下表包含兩個候選的 n 元語法查準率。
  • 簡潔處罰
    候選 1 與候選 2 的簡潔處罰值相同,因為兩個語句都包含 11 個符記。
  • BLEU 分數
    請注意,必須有至少一個相符的 4 元語法,才能取得 > 0 的 BLEU 分數。 由於候選翻譯 1 沒有相符的 4 元語法,因此 BLEU 分數為 0。
指標 候選 1 候選 2
\(precision_1\) (1 公克) 8/11 9/11
\(precision_2\) (2 公克) 4/10 5/10
\(precision_3\) (3 公克) 2/9 2/9
\(precision_4\) (4 公克) 0/8 1/8
簡潔處罰值 0.83 0.83
BLEU 分數 0.0 0.27

屬性

  • BLEU 是以語料庫為基礎的指標
    在用來評估個別語句時,BLEU 指標的效能不佳。例如,即使兩個範例語句表達出了大概意思,也會得到非常低的 BLEU 分數。由於個別語句的 n 元語法統計資料沒有什麼意義,因此 BLEU 是以語料庫為基礎來設計的指標;也就是說,在計算分數時,會對整個語料庫中的統計資料進行累計。請注意,無法針對個別語句,對上文定義的 BLEU 指標進行因式分解。

  • 實詞與虛詞之間沒有差異
    BLEU 指標不會區分實詞與虛詞,也就是說,捨棄諸如「a」的虛詞所致使的處罰值,與將名稱「NASA」錯誤取代為「ESA」時致使的處罰值相同。

  • 在掌握語句的含意與語法方面表現不佳
    捨棄像「not」這樣的一個單字,表達的語意就會相反。 另外,僅考慮 n≤4 的 n 元語法會忽略長範圍依賴性,因此,BLEU 通常只會對不合文法的語句施加較小的處罰。

  • 標準化與符記化
    在計算 BLEU 分數之前,會對參考與候選翻譯進行標準化與符記化。標準化與符記化步驟的選擇會對最終 BLEU 分數造成重大影響。