以範本為依據的擷取

您只需提供三份訓練文件和三份測試文件,就能訓練出效能優異的模型,用於固定版面配置用途。加快開發速度,並縮短 W9、1040、ACORD、問卷調查和問卷等範本文件類型的製作時間。

資料集設定

如要訓練、進階訓練或評估處理器版本,必須使用文件資料集。Document AI 處理器會從範例學習,就像人類一樣。資料集可提升處理器效能方面的穩定性。

訓練資料集

如要改善模型和準確度,請使用文件訓練資料集。模型由真值文件組成。訓練新模型至少需要三份文件。

測試資料集

模型會使用測試資料集產生 F1 分數 (準確度)。這個資料集由含有實際值的文件組成。如要查看模型正確的頻率,請使用真值比較模型的預測結果 (從模型中擷取的欄位) 與正確答案。測試資料集至少須包含三份文件。

事前準備

如果尚未啟用,請啟用以下項目:

範本模式標示最佳做法

正確標示是提高準確度的關鍵步驟之一。範本模式採用與其他訓練模式不同的標示方法:

  • 在文件中,圍繞預期資料所在的整個區域 (每個標籤) 繪製邊界框,即使標籤在您要標示的訓練文件中為空白也一樣。
  • 您可以為以範本為基準的訓練標示空白欄位。請勿為以模型為基準的訓練標示空白欄位。

使用範本模式建構及評估自訂擷取工具

  1. 建立自訂擷取工具。建立處理器,並定義欄位,您想根據最佳做法擷取這些欄位,這很重要,因為這會影響擷取品質。

  2. 設定資料集位置。選取預設選項資料夾 (由 Google 管理)。這項作業可能會在建立處理器後不久自動完成。

  3. 前往「Build」分頁,然後選取已啟用自動加上標籤功能的「Import documents」。超過三份文件的最低要求後,再加入的文件通常不會改善以範本為基礎的訓練品質。請專注於準確標記少量資料,不要增加標籤數量。

  4. 延伸定界框。範本模式的這些方塊應如下列範例所示。按照最佳做法延伸邊界框,以便取得最佳結果。

  5. 訓練模型。

    1. 選取「訓練新的版本」
    2. 為處理器版本命名。
    3. 前往「顯示進階選項」,然後選取以範本為基礎的模型方法。

    template-based-extraction-3

  6. 評估。

    1. 前往「評估與測試」
    2. 選取剛訓練的版本,然後選取「查看完整評估結果」

    template-based-extraction-4

    您現在可以查看整份文件和各個欄位的 F1 分數、精確度和召回率等指標。1. 判斷成效是否符合實際目標,如果不符合,請重新評估訓練和測試資料集。

  7. 將新版本設為預設版本。

    1. 前往「管理版本」
    2. 選取該選項即可查看設定選單,然後勾選「設為預設」

    template-based-extraction-5

    模型現在已部署,且傳送至此處理器的文件會使用自訂版本。您想評估模型的成效 (詳情),看看是否需要進一步訓練。

評估參考資料

評估引擎可執行完全比對或模糊比對。在完全比對的情況下,擷取的值必須與實際值完全相符,否則會計為遺漏。

模糊比對擷取結果如果有細微差異 (例如大小寫差異),仍會視為符合條件。您可以在「評估」畫面變更這項設定。

template-based-extraction-6

使用基礎模型自動加上標籤

基礎模型能精準地擷取各種文件類型的欄位,但您也可以提供其他訓練資料,提高模型處理特定文件結構的準確率。

Document AI 會使用您定義的標籤名稱和先前的註解,更輕鬆快速地使用自動加上標籤功能,為大量文件加上標籤。

  1. 建立自訂處理器後,請前往「開始使用」分頁。
  2. 選取「建立新欄位」

    template-based-extraction-7

  3. 前往「Build」分頁,然後選取「Import documents」

    template-based-extraction-8

  4. 選取文件路徑,以及要匯入文件的集合。勾選自動加上標籤核取方塊,然後選取基礎模型。

  5. 在「Build」分頁中,選取「Manage dataset」。您應該會看到已匯入的文件。選取其中一份文件。

    template-based-extraction-9

  6. 您會看到模型預測結果以紫色標示,您需要檢查模型預測的每個標籤,確保正確無誤。如果有缺少的欄位,您也需要新增這些欄位。

    template-based-extraction-10

  7. 文件審查完畢後,請選取「標示為已加上標籤」

  8. 文件現在已可供模型使用。確認文件位於測試集或訓練集中。