本頁面由 Cloud Translation API 翻譯而成。

自訂翻譯總覽

預設的 Google 神經機器翻譯 (NMT) 模型涵蓋多種語言，適合用於一般用途的文字。不過，如果翻譯的文字涉及特定領域或風格，自訂翻譯功能可協助您取得更相關的翻譯結果。

如要使用自訂翻譯，您必須自行提供翻譯範例。接著，Cloud Translation 就能生成與範例風格、語氣和詞彙相近的結果。

Cloud Translation 提供兩種解決方案，可要求自訂翻譯：AutoML Translation 可訓練自訂模型，而適應性翻譯則可運用 Google 的大型語言模型 (LLM)。每項功能都有專屬的資料規定、支援語言和定價。

AutoML Translation

透過 AutoML Translation，您可以匯入資料來訓練自訂模型，並擁有及維護這些模型。建立自訂模型後，您就可以要求使用該模型進行翻譯，而非預設的 NMT 模型。與自適應翻譯相比，自訂模型適合用於特定領域的文字，因為正確的術語是最高優先事項。您也必須提供較大的資料集，用於訓練模型。

系統會根據模型訓練時間和您傳送的翻譯輸入字元數計費。

Adaptive Translation

這項功能會搭配運用大型語言模型 (LLM) 和小型資料集，提供高品質翻譯，通常與 AutoML Translation 自訂模型不相上下。您不必訓練或維護任何模型。相較於自訂模型，適應性翻譯功能可根據輸入內容的風格、語氣和聲音，生成類似的回覆。

如果是自適應翻譯，系統會根據輸入和輸出字元數收費。

準備翻譯範例

準備以區隔配對形式呈現的翻譯範例，也就是以來源語言呈現的句子，以及以目標語言翻譯的對應句子。將這些區隔配對儲存為定位點分隔值 (TSV) 檔案或 Translation Memory eXchange (TMX) 檔案。

選擇的範例應代表您打算翻譯內容的語言領域。如需更多指引，請參閱 AutoML Translation 新手指南中的「資料準備」一節。

TSV

如果是以定位點分隔值的檔案，每一列的格式如下：

Source segment 分頁 Translated segment

請勿加入標頭列，其中包含用於識別原文和譯文語言的語言代碼。建立資料集時，請指定這些語言。以下範例包含英德翻譯的區隔配對：

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

TSV 檔案中的所有內容都必須是純文字。如果文字含有 HTML 標記或其他標記，Cloud Translation 會將標記視為純文字。

TMX

TMX 格式是用來提供原文與譯文翻譯片段的標準 XML 格式。Cloud Translation 支援 TMX 1.4 版格式的輸入檔案。下列範例說明此格式的必要架構：

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

格式正確的 TMX 檔案中，<header> 元素必須使用 srclang 屬性標示原文語言，且每個 <tuv> 元素都必須使用 xml:lang 屬性標示所含文字的語言。

所有 <tu> 元素都必須包含一組指定相同原文與譯文語言的 <tuv> 元素。如果 <tu> 元素包含超過兩個 <tuv> 元素，Cloud Translation 只會處理符合來源語言的第一個 <tuv> 元素，以及符合目標語言的第一個 <tuv> 元素，並忽略其餘元素。如果 <tu> 元素沒有一組相符的 <tuv> 元素，Cloud Translation 則會略過無效的 <tu> 元素。

Cloud Translation 會先移除 <seg> 元素兩側的標記代碼，再進行處理。如果 <tuv> 元素包含多個 <seg> 元素，Cloud Translation 會將其中的文字串聯為單一元素，並以空格進行分隔。

如果檔案包含上述內容以外的 XML 標記，Cloud Translation 會忽略這些標記。

如果檔案不符合正確的 XML 與 TMX 格式 (例如遺失結束標記或 <tmx> 元素)，Cloud Translation 會取消處理作業。如果略過超過 1024 個無效 <tu> 元素，Cloud Translation 也會取消處理作業。

每項功能所需的最低和最高區隔配對數不同。詳情請參閱 AutoML Translation 資料準備或自適應翻譯資料需求。

後續步驟

如要進一步瞭解各項功能，請參閱 AutoML Translation 總覽或自適應翻譯。
如需語言支援資訊，請參閱「支援的語言」。
如要瞭解定價詳情，請參閱「Cloud Translation 定價」。