如果必須一致翻譯特定領域的字詞和具名實體,請建立詞彙表。詞彙表是自訂字典,其中包含兩種以上語言的對應詞彙。在機器翻譯期間,Translation Hub 會自動將相符的原文詞彙替換為相關的目標語言詞彙。
使用詞彙表,微調特定字詞或實體的翻譯方式。舉例來說,您可以加入字彙表項目,避免產品名稱 (例如「Google Home」) 遭到翻譯。
建立詞彙表後,請將其新增至入口網站,讓入口網站使用者使用。
詞彙表與其他翻譯資源的比較
除了詞彙表之外,您也可以提供其他資源,協助入口網站使用者進行翻譯。下節將說明各項資源的差異。
- 翻譯記憶庫會比對片段,而字典會比對詞彙。使用翻譯記憶庫,重複使用匯入的人工審核翻譯,或在譯後編輯期間擷取的翻譯。翻譯記憶庫可包含任意數量的片段組合,支援任意語言。
- 自訂模型會使用您的語句組合進行訓練,如果您沒有完整的詞彙表或翻譯記憶庫,這類模型有助於改善機器翻譯品質。如果您想針對特定領域和寫作風格調整機器翻譯,請使用 AutoML Translation 建構自訂模型,以便產生更合適的預測結果。
入口網站使用者可以同時使用這些資源,以提升翻譯品質。如要進一步瞭解 Translation Hub 如何在翻譯期間套用資源,請參閱「翻譯文件」。
非檢索用字
Translation Hub 會忽略詞彙表中的部分字詞,這些字詞稱為停用字詞。Translation Hub 仍會翻譯停用字詞,但會忽略任何相符的詞彙表項目。如需所有停用字詞的清單,請參閱「詞彙表停用字詞」。
事前準備
如要填入詞彙表,您需要提供對應語言的字詞檔案。來源檔案的格式取決於您建立的字典類型:單向或等值字詞組合。
字彙表項目會區分大小寫。如果是大小寫不敏感的項目,請在詞彙表中加入兩種形式。
單向
單向詞彙表會指定字詞的所需譯文,並以原文和譯文語言配對。這些詞彙表的運作方式是單向的。舉例來說,英文到西班牙文的單向詞彙表不適用於西班牙文到英文的翻譯。
您可以提供 TSV (定位點分隔值)、CSV (半形逗號分隔值) 或 TMX (Translation Memory eXchange) 檔案。對於 TSV 和 CSV 檔案,請勿加入標題列來識別原文和譯文語言。您必須在建立詞彙表時指定這些值。針對 TMX 檔案,請使用 TMX 版本 1.4 標準。
如需詞彙表的詳細資訊和範例,請參閱 Cloud Translation 說明文件中的「建立及使用詞彙表」。
對等字詞集
對等字詞集包含多種語言的對等字詞,且必須在 CSV 檔案中定義。每個資料列都會包含不同語言的對應詞彙。這些詞彙表是雙向的。標題列必須使用相應的語言代碼,標示各資料欄的語言。
如需詞彙表的詳細資訊和範例,請參閱 Cloud Translation 說明文件中的「建立及使用詞彙表」。
詞彙表限制
Translation Hub 會設定來源檔案和每個詞彙表項目的大小限制。詳情請參閱「配額與限制」。
建立詞彙表
您可以使用 Google Cloud 控制台建立詞彙表。如果您先前曾透過 Cloud Translation API 建立資源,Translation Hub 會提供這些資源。您可以將這些資源指派給入口網站。
在 Google Cloud 控制台的「Translation Hub」專區中,前往「Resources」頁面。
按一下「新增資源」。
在「新增資源」窗格中,選取「詞彙表」分頁標籤。
指定字典的名稱。
選取詞彙表類型。
將本機詞彙檔案上傳至 Cloud Storage,或從 Cloud Storage 選取現有的詞彙檔案。
指定詞彙表語言。
按一下「新增」即可建立詞彙表。
在入口網站中新增詞彙表
建立詞彙表後,請將詞彙表新增至入口網站,讓入口網站使用者在要求翻譯時使用這些詞彙表。
在 Google Cloud 控制台的「Translation Hub」專區中,前往「Resources」頁面。
從資源清單中選取一或多個字典,新增至一個或多個入口網站。
按一下「指派給入口網站」,開啟「將資源指派給入口網站」窗格。
在「入口網站」欄位中,選取要新增詞彙表的一或多個入口網站。
按一下「指派」。
在「資源」頁面上,您可以查看每個資源的「Portal names」欄,確認是否已新增。
後續步驟
- 瞭解入口網站使用者如何要求翻譯。