本頁面由 Cloud Translation API 翻譯而成。

以範本為依據的擷取

針對固定版面配置用途，您只需提供三份訓練和三份測試文件，即可訓練出高效能模型。加快開發速度，並縮短 W9、1040、ACORD、問卷調查和問卷等範本文件類型的製作時間。

資料集設定

如要訓練、進階訓練或評估處理器版本，必須使用文件資料集。Document AI 處理器會像人類一樣從範例中學習。資料集可提升處理器效能穩定性。

訓練資料集

如要提升模型和準確率，請使用文件訓練資料集。模型是由包含真值的檔案組成。至少須有三份文件才能訓練新模型。

測試資料集

模型會使用測試資料集產生 F1 分數 (準確率)。這類資料集由含有真值的檔案組成，如要瞭解模型預測正確的頻率，請使用實際資料比較模型的預測結果 (從模型擷取的欄位) 與正確答案。測試資料集至少要有三份文件。

事前準備

如果尚未啟用，請啟用下列項目：

範本模式標記最佳做法

正確標記是提高準確度的重要步驟之一。範本模式的標記方法與其他訓練模式不同，有以下獨特之處：

在文件中，針對您預期資料會出現的整個區域 (每個標籤)，繪製周框方塊，即使您標記的訓練文件中沒有標籤也一樣。
您可以為以範本為基準的訓練標示空白欄位。請勿為以模型為基準的訓練標記空白欄位。

使用範本模式建構及評估自訂擷取工具

建立自訂擷取工具。建立處理器，並按照最佳做法定義要擷取的欄位，這很重要，因為會影響擷取品質。
設定資料集位置。選取預設選項資料夾 (由 Google 管理)。建立處理器後不久，系統可能會自動執行這項操作。
前往「Build」(建構) 分頁，然後選取「Import documents」(匯入文件)，並啟用自動加上標籤功能。一般來說，如果訓練是以範本為基礎，加入的文件數量超過最低要求 (三份)，不會提升品質。與其新增更多資料，不如專注於準確標記一小組資料。

注意： 如果資料集中出現範本變體，可以嘗試增加訓練集大小。每個變體至少要有三份訓練文件。每個集合至少需要三份訓練文件、三份測試文件和三個結構定義標籤。
擴大定界框。範本模式的這些方塊應如上述範例所示。請按照最佳做法擴大周框，以獲得最佳結果。
訓練模型。
1. 選取「訓練新版本」。
2. 為處理器版本命名。
3. 前往「顯示進階選項」，然後選取以範本為基礎的模型方法。
注意： 訓練作業需要一段時間才能完成。
評估。
1. 前往「評估與測試」。
2. 選取您剛訓練的版本，然後選取「查看完整評估」。
現在您會看到整份文件和每個欄位的 F1 分數、精確度和召回率等指標。 1. 判斷成效是否達到生產目標，如果沒有，請重新評估訓練和測試集。
將新版本設為預設版本。
1. 前往「管理版本」。
2. 選取即可查看設定選單，然後勾選「設為預設」。
模型現已部署完成，傳送至這個處理器的文件會使用自訂版本。您想評估模型成效 (如需如何評估的詳細資訊，請參閱這篇文章)，確認模型是否需要進一步訓練。

評估參考資料

評估引擎可以執行完全比對或模糊比對。如要完全相符，擷取的值必須與實際資料完全相符，否則會視為不符。

如果擷取的模糊比對結果有微小差異 (例如大小寫不同)，仍會視為相符。您可以在「評估」畫面變更這項設定。

template-based-extraction-6

使用基礎模型自動加上標籤

基礎模型能精準地擷取各種文件類型的欄位，但您也可以提供其他訓練資料，提高模型處理特定文件結構的準確率。

您可以輕鬆運用 Document AI 的自動加上標籤功能，依據已定義的標籤名稱和先前的註解，快速為大量文件加上標籤。

建立自訂處理器後，請前往「開始使用」分頁。
選取「Create New Field」(建立新欄位)。

注意： 基礎模型的標籤名稱會大幅影響模型的準確度和效能。請務必提供描述性名稱。
前往「Build」(建構) 分頁，然後選取「Import documents」(匯入文件)。
選取文件路徑，以及要將文件匯入哪個集合。勾選自動加上標籤的核取方塊，然後選取基礎模型。
在「建構」分頁中，選取「管理資料集」。您應該會看到匯入的文件。選取其中一個文件。
模型預測結果會以紫色醒目顯示，您需要逐一檢查模型預測的標籤，確保正確無誤。如有缺少的欄位，也請一併新增。

注意： 請盡可能準確填寫所有欄位，否則模型成效會受到影響。如要進一步瞭解標籤，請參閱這篇文章。
審查完文件後，請選取「標示為已加上標籤」。
模型現在可以使用這份文件。確認文件位於測試集或訓練集中。

以自訂為依據的擷取

採用生成式 AI 技術的自訂擷取器