準備訓練資料

Cloud Translation 會使用原文和譯文語言中的相符片段組合訓練自訂模型。並將每個區段配對視為獨立的訓練項目,不會假設不同配對之間有任何關聯。

用於訓練自訂模型的區隔配對必須採用 Tab 分隔值 (.tsv) 或 Translation Memory eXchange (.tmx) 格式。 詳情請參閱「準備翻譯範例」。

系統一律會移除所有匯入配對中的重複區隔配對。如果兩個區隔的來源區隔相符,則這兩個區隔即為重複。Cloud Translation 不允許匯入內容相同的檔案。

資料分割

建立自訂模型時,AutoML Translation 會使用您提供的區段配對,達成不同目的:

  • 訓練:用來訓練模型的分段配對。將大部分資料分配給這項用途。
  • 驗證 - 分段配對,驗證模型在訓練期間傳回的結果。
  • 測試:配對區隔,產生模型的最終評估指標。指出模型在實際工作環境中的可能成效。

您可以上傳訓練、驗證和測試集的個別檔案,控管 AutoML Translation 針對各個目的所使用的區段組合。如果您未明確指定要將哪些檔案用於這三種用途,AutoML Translation 會自動將語句組合分成三組。AutoML Translation 會使用約 80% 的資料進行訓練、10% 進行驗證,以及 10% 進行測試。AutoML Translation 會隨機將片段組合指派到這三組。驗證集和測試集最多可各有 10,000 個區隔配對。10,000 個配對完成後,配對的區隔會推送至訓練集。

如果您將多筆資料匯入同一個資料集,可以手動指定其中一筆資料的分割比例,另一筆則使用自動分割。每次匯入資料和刪除檔案後,系統一律會根據手動劃分重新平衡資料。

資料條件

訓練資料必須符合下列條件:

  • 如果讓 AutoML Translation 自動分割資料,您必須提交至少 1,000 個區段配對,才能訓練自訂模型。
  • 如果手動分割資料,您必須為 TRAIN 集提供至少三個片段配對,且 VALIDATIONTEST 集各須至少有 100 個片段配對。
  • 您必須為 TRAIN 集提供至少三個片段配對,且 VALIDATIONTEST 集分別須有至少 100 個片段配對。
  • VALIDATIONTEST 集的區隔配對數量上限為 10,000 個。
  • 資料集最多只能有 1,500 萬個區隔配對。

資料建議

以下建議有助於提升模型品質:

  • 請至少使用 5,000 個區隔配對進行 TRAIN,並使用 500 個區隔配對進行 VALIDATIONTEST。不過,如果可以,請盡量使用更多資料。TRAIN 集的資料越多,模型就越能學習模式;VALIDATIONTEST 集的資料越多,就越能驗證模型是否可套用至網域中更多情境。
  • 每個區段的字數應盡量不超過 200 字。如果區隔配對大於該值,AutoML Translation 可能會捨棄。詳情請參閱「匯入問題」。
  • 如要修正常見的來源資料問題,請參閱總覽的「資料準備」部分中「清除雜亂資料」一節。

後續步驟