自訂翻譯總覽

預設的 Google 神經機器翻譯 (NMT) 模型涵蓋多種語言,適合用於一般用途的文字。不過,如果翻譯的文字涉及特定領域或風格,自訂翻譯功能可協助您取得更相關的翻譯結果。

如要使用自訂翻譯,您必須自行提供翻譯範例。接著,Cloud Translation 就能生成與範例風格、語氣和詞彙相近的結果。

Cloud Translation 提供兩種解決方案,可要求自訂翻譯:AutoML Translation 可訓練自訂模型,而適應性翻譯則可運用 Google 的大型語言模型 (LLM)。每項功能都有專屬的資料規定、支援語言和定價。

AutoML Translation

透過 AutoML Translation,您可以匯入資料來訓練自訂模型,並擁有及維護這些模型。建立自訂模型後,您就可以要求使用該模型進行翻譯,而非預設的 NMT 模型。與自適應翻譯相比,自訂模型適合用於特定領域的文字,因為正確的術語是最高優先事項。您也必須提供較大的資料集,用於訓練模型。

系統會根據模型訓練時間和您傳送的翻譯輸入字元數計費。

Adaptive Translation

這項功能會搭配運用大型語言模型 (LLM) 和小型資料集,提供高品質翻譯,通常與 AutoML Translation 自訂模型不相上下。您不必訓練或維護任何模型。相較於自訂模型,適應性翻譯功能可根據輸入內容的風格、語氣和聲音,生成類似的回覆。

如果是自適應翻譯,系統會根據輸入和輸出字元數收費。

準備翻譯範例

準備以區隔配對形式呈現的翻譯範例,也就是以來源語言呈現的句子,以及以目標語言翻譯的對應句子。將這些區隔配對儲存為定位點分隔值 (TSV) 檔案或 Translation Memory eXchange (TMX) 檔案。

選擇的範例應代表您打算翻譯內容的語言領域。如需更多指引,請參閱 AutoML Translation 新手指南中的「資料準備」一節。

TSV

如果是以定位點分隔值的檔案,每一列的格式如下:

  • Source segment 分頁 Translated segment

請勿加入標頭列,其中包含用於識別原文和譯文語言的語言代碼。建立資料集時,請指定這些語言。 以下範例包含英德翻譯的區隔配對:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

TSV 檔案中的所有內容都必須是純文字。如果文字含有 HTML 標記或其他標記,Cloud Translation 會將標記視為純文字。

TMX

TMX 格式是用來提供原文與譯文翻譯片段的標準 XML 格式。Cloud Translation 支援 TMX 1.4 版格式的輸入檔案。下列範例說明此格式的必要架構:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

格式正確的 TMX 檔案中,<header> 元素必須使用 srclang 屬性標示原文語言,且每個 <tuv> 元素都必須使用 xml:lang 屬性標示所含文字的語言。

所有 <tu> 元素都必須包含一組指定相同原文與譯文語言的 <tuv> 元素。如果 <tu> 元素包含超過兩個 <tuv> 元素,Cloud Translation 只會處理符合來源語言的第一個 <tuv> 元素,以及符合目標語言的第一個 <tuv> 元素,並忽略其餘元素。如果 <tu> 元素沒有一組相符的 <tuv> 元素,Cloud Translation 則會略過無效的 <tu> 元素。

Cloud Translation 會先移除 <seg> 元素兩側的標記代碼,再進行處理。如果 <tuv> 元素包含多個 <seg> 元素,Cloud Translation 會將其中的文字串聯為單一元素,並以空格進行分隔。

如果檔案包含上述內容以外的 XML 標記,Cloud Translation 會忽略這些標記。

如果檔案不符合正確的 XML 與 TMX 格式 (例如遺失結束標記或 <tmx> 元素),Cloud Translation 會取消處理作業。如果略過超過 1024 個無效 <tu> 元素,Cloud Translation 也會取消處理作業。

每項功能所需的最低和最高區隔配對數不同。詳情請參閱 AutoML Translation 資料準備自適應翻譯資料需求

後續步驟