本頁面由 Cloud Translation API 翻譯而成。

準備訓練資料

Cloud Translation 會使用原文和譯文語言中的相符片段組合訓練自訂模型。並將每個區段配對視為獨立的訓練項目，不會假設不同配對之間有任何關聯。

用於訓練自訂模型的區隔配對必須採用 Tab 分隔值 (.tsv) 或 Translation Memory eXchange (.tmx) 格式。詳情請參閱「準備翻譯範例」。

系統一律會移除所有匯入配對中的重複區隔配對。如果兩個區隔的來源區隔相符，則這兩個區隔即為重複。Cloud Translation 不允許匯入內容相同的檔案。

資料分割

建立自訂模型時，AutoML Translation 會使用您提供的區段配對，達成不同目的：

訓練：用來訓練模型的分段配對。將大部分資料分配給這項用途。
驗證 - 分段配對，驗證模型在訓練期間傳回的結果。
測試：配對區隔，產生模型的最終評估指標。指出模型在實際工作環境中的可能成效。

您可以上傳訓練、驗證和測試集的個別檔案，控管 AutoML Translation 針對各個目的所使用的區段組合。如果您未明確指定要將哪些檔案用於這三種用途，AutoML Translation 會自動將語句組合分成三組。AutoML Translation 會使用約 80% 的資料進行訓練、10% 進行驗證，以及 10% 進行測試。AutoML Translation 會隨機將片段組合指派到這三組。驗證集和測試集最多可各有 10,000 個區隔配對。10,000 個配對完成後，配對的區隔會推送至訓練集。

如果您將多筆資料匯入同一個資料集，可以手動指定其中一筆資料的分割比例，另一筆則使用自動分割。每次匯入資料和刪除檔案後，系統一律會根據手動劃分重新平衡資料。

資料條件

訓練資料必須符合下列條件：

如果讓 AutoML Translation 自動分割資料，您必須提交至少 1,000 個區段配對，才能訓練自訂模型。
如果手動分割資料，您必須為 TRAIN 集提供至少三個片段配對，且 VALIDATION 和 TEST 集各須至少有 100 個片段配對。
您必須為 TRAIN 集提供至少三個片段配對，且 VALIDATION 和 TEST 集分別須有至少 100 個片段配對。
VALIDATION 和 TEST 集的區隔配對數量上限為 10,000 個。
資料集最多只能有 1,500 萬個區隔配對。

資料建議

以下建議有助於提升模型品質：

請至少使用 5,000 個區隔配對進行 TRAIN，並使用 500 個區隔配對進行 VALIDATION和 TEST。不過，如果可以，請盡量使用更多資料。TRAIN 集的資料越多，模型就越能學習模式；VALIDATION 和 TEST 集的資料越多，就越能驗證模型是否可套用至網域中更多情境。
每個區段的字數應盡量不超過 200 字。如果區隔配對大於該值，AutoML Translation 可能會捨棄。詳情請參閱「匯入問題」。
如要修正常見的來源資料問題，請參閱總覽的「資料準備」部分中「清除雜亂資料」一節。

後續步驟

建立資料集並匯入資料。