自訂翻譯總覽
預設的 Google 神經機器翻譯 (NMT) 模型涵蓋多種語言,適合用於一般用途的文字。不過,如果翻譯的文字涉及特定領域或風格,自訂翻譯功能可協助您取得更相關的翻譯結果。
如要使用自訂翻譯,您必須自行提供翻譯範例。接著,Cloud Translation 就能生成與範例風格、語氣和詞彙相近的結果。
Cloud Translation 提供兩種解決方案,可要求自訂翻譯:AutoML Translation 可訓練自訂模型,而適應性翻譯則可運用 Google 的大型語言模型 (LLM)。每項功能都有專屬的資料規定、支援語言和定價。
AutoML Translation
透過 AutoML Translation,您可以匯入資料來訓練自訂模型,並擁有及維護這些模型。建立自訂模型後,您就可以要求使用該模型進行翻譯,而非預設的 NMT 模型。與自適應翻譯相比,自訂模型適合用於特定領域的文字,因為正確的術語是最高優先事項。您也必須提供較大的資料集,用於訓練模型。
系統會根據模型訓練時間和您傳送的翻譯輸入字元數計費。
Adaptive Translation
這項功能會搭配運用大型語言模型 (LLM) 和小型資料集,提供高品質翻譯,通常與 AutoML Translation 自訂模型不相上下。您不必訓練或維護任何模型。相較於自訂模型,適應性翻譯功能可根據輸入內容的風格、語氣和聲音,生成類似的回覆。
如果是自適應翻譯,系統會根據輸入和輸出字元數收費。
準備翻譯範例
準備以區隔配對形式呈現的翻譯範例,也就是以來源語言呈現的句子,以及以目標語言翻譯的對應句子。將這些區隔配對儲存為定位點分隔值 (TSV) 檔案或 Translation Memory eXchange (TMX) 檔案。
選擇的範例應代表您打算翻譯內容的語言領域。如需更多指引,請參閱 AutoML Translation 新手指南中的「資料準備」一節。
TSV
如果是以定位點分隔值的檔案,每一列的格式如下:
Source segment
分頁Translated segment
請勿加入標頭列,其中包含用於識別原文和譯文語言的語言代碼。建立資料集時,請指定這些語言。 以下範例包含英德翻譯的區隔配對:
It's a beautiful day.\tEs ist ein schöner Tag. Tomorrow it will rain.\tMorgen wird es regnen.
TSV 檔案中的所有內容都必須是純文字。如果文字含有 HTML 標記或其他標記,Cloud Translation 會將標記視為純文字。
TMX
TMX 格式是用來提供原文與譯文翻譯片段的標準 XML 格式。Cloud Translation 支援 TMX 1.4 版格式的輸入檔案。下列範例說明此格式的必要架構:
<?xml version='1.0' encoding='utf-8'?> <!DOCTYPE tmx SYSTEM "tmx14.dtd"> <tmx version="1.4"> <header segtype="sentence" o-tmf="UTF-8" adminlang="en" srclang="en" datatype="PlainText"/> <body> <tu> <tuv xml:lang="en"> <seg>It's a beautiful day.</seg> </tuv> <tuv xml:lang="de"> <seg>Es ist ein schöner Tag.</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Tomorrow it will rain.</seg> </tuv> <tuv xml:lang="de"> <seg>Morgen wird es regnen.</seg> </tuv> </tu> </body> </tmx>
格式正確的 TMX 檔案中,<header>
元素必須使用 srclang
屬性標示原文語言,且每個 <tuv>
元素都必須使用 xml:lang
屬性標示所含文字的語言。
所有 <tu>
元素都必須包含一組指定相同原文與譯文語言的 <tuv>
元素。如果 <tu>
元素包含超過兩個 <tuv>
元素,Cloud Translation 只會處理符合來源語言的第一個 <tuv>
元素,以及符合目標語言的第一個 <tuv>
元素,並忽略其餘元素。如果 <tu>
元素沒有一組相符的 <tuv>
元素,Cloud Translation 則會略過無效的 <tu>
元素。
Cloud Translation 會先移除 <seg>
元素兩側的標記代碼,再進行處理。如果 <tuv>
元素包含多個 <seg>
元素,Cloud Translation 會將其中的文字串聯為單一元素,並以空格進行分隔。
如果檔案包含上述內容以外的 XML 標記,Cloud Translation 會忽略這些標記。
如果檔案不符合正確的 XML 與 TMX 格式 (例如遺失結束標記或 <tmx>
元素),Cloud Translation 會取消處理作業。如果略過超過 1024 個無效 <tu>
元素,Cloud Translation 也會取消處理作業。
每項功能所需的最低和最高區隔配對數不同。詳情請參閱 AutoML Translation 資料準備或自適應翻譯資料需求。
後續步驟
- 如要進一步瞭解各項功能,請參閱 AutoML Translation 總覽或自適應翻譯。
- 如需語言支援資訊,請參閱「支援的語言」。
- 如要瞭解定價詳情,請參閱「Cloud Translation 定價」。