準備訓練資料
Cloud Translation 會使用原文和譯文語言中的相符片段組合訓練自訂模型。並將每個區段配對視為獨立的訓練項目,不會假設不同配對之間有任何關聯。
用於訓練自訂模型的區隔配對必須採用 Tab 分隔值 (.tsv
) 或 Translation Memory eXchange (.tmx
) 格式。
詳情請參閱「準備翻譯範例」。
系統一律會移除所有匯入配對中的重複區隔配對。如果兩個區隔的來源區隔相符,則這兩個區隔即為重複。Cloud Translation 不允許匯入內容相同的檔案。
資料分割
建立自訂模型時,AutoML Translation 會使用您提供的區段配對,達成不同目的:
- 訓練:用來訓練模型的分段配對。將大部分資料分配給這項用途。
- 驗證 - 分段配對,驗證模型在訓練期間傳回的結果。
- 測試:配對區隔,產生模型的最終評估指標。指出模型在實際工作環境中的可能成效。
您可以上傳訓練、驗證和測試集的個別檔案,控管 AutoML Translation 針對各個目的所使用的區段組合。如果您未明確指定要將哪些檔案用於這三種用途,AutoML Translation 會自動將語句組合分成三組。AutoML Translation 會使用約 80% 的資料進行訓練、10% 進行驗證,以及 10% 進行測試。AutoML Translation 會隨機將片段組合指派到這三組。驗證集和測試集最多可各有 10,000 個區隔配對。10,000 個配對完成後,配對的區隔會推送至訓練集。
如果您將多筆資料匯入同一個資料集,可以手動指定其中一筆資料的分割比例,另一筆則使用自動分割。每次匯入資料和刪除檔案後,系統一律會根據手動劃分重新平衡資料。
資料條件
訓練資料必須符合下列條件:
- 如果讓 AutoML Translation 自動分割資料,您必須提交至少 1,000 個區段配對,才能訓練自訂模型。
- 如果手動分割資料,您必須為
TRAIN
集提供至少三個片段配對,且VALIDATION
和TEST
集各須至少有 100 個片段配對。 - 您必須為
TRAIN
集提供至少三個片段配對,且VALIDATION
和TEST
集分別須有至少 100 個片段配對。 VALIDATION
和TEST
集的區隔配對數量上限為 10,000 個。- 資料集最多只能有 1,500 萬個區隔配對。
資料建議
以下建議有助於提升模型品質:
- 請至少使用 5,000 個區隔配對進行
TRAIN
,並使用 500 個區隔配對進行VALIDATION
和TEST
。不過,如果可以,請盡量使用更多資料。TRAIN
集的資料越多,模型就越能學習模式;VALIDATION
和TEST
集的資料越多,就越能驗證模型是否可套用至網域中更多情境。 - 每個區段的字數應盡量不超過 200 字。如果區隔配對大於該值,AutoML Translation 可能會捨棄。詳情請參閱「匯入問題」。
- 如要修正常見的來源資料問題,請參閱總覽的「資料準備」部分中「清除雜亂資料」一節。