自訂擷取器機制

您可以建立文件專屬的自訂擷取器,並透過資料訓練和評估。這個處理器可辨識並擷取文件中的實體。完成訓練後,您可以在其他文件中使用該處理器。

事前準備

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

建立處理器

  1. 在 Google Cloud 控制台,依序前往「Document AI」專區和「Workbench」頁面。

    Workbench

  2. 在「custom extractor」(自訂擷取器) 部分,選取「Create processor」(建立處理器)

    updated-cde-2.0-path-to-docai-1

  3. 在「Create processor」(建立處理器) 選單中,輸入處理器名稱,例如 my-custom-document-extractor

    updated-cde-2.0-path-to-docai-2

  4. 請選取最近的區域。

  5. 選用:開啟「Advanced options」(進階選項)

    • 您可以選擇讓 Google 代為建立 Cloud Storage bucket,或者自行建立 bucket。進行本教學課程時,請選取「Google-managed storage」(Google 代管的儲存空間)

    • 您也能選擇使用 Google 代管或客戶自行管理的加密金鑰 (CMEK)。 在本教學課程中,請選取 Google-managed encryption key

  6. 選取「Create」(建立) 即可建立處理器。

定義處理器欄位

現在您已進入新建處理器的「Processor overview」(處理器總覽) 頁面。

updated-cde-2.0-path-to-docai-3

您可以指定要讓處理器擷取的欄位,然後開始為文件加上標籤。

  1. 選取「Get started」(開始使用) 分頁標籤。系統隨即會顯示「fields」(欄位) 選單。

  2. 選取「Create new field」(建立新欄位)

  3. 輸入欄位名稱。選取「Data type」(資料類型) 和「Occurrence」(發生次數)。為標籤提供描述性且獨特的說明。您可以透過屬性說明為每個實體提供額外背景資訊、洞察資料和相關知識,以提升擷取準確度和效能。

updated-cde-2.0-path-to-docai-9
  1. 選取 [Create] (建立)。如需建立與編輯結構定義的詳細操作說明,請參閱「定義處理器結構定義」。
  1. 為處理器結構定義建立下列每個標籤。

    名稱 資料類型 發生次數
    control_number 數字 選用 (可出現多次)
    employees_social_security_number 數字 必要 (可出現多次)
    employer_identification_number 數字 必要 (可出現多次)
    employers_name_address_and_zip_code 地址 必要 (可出現多次)
    federal_income_tax_withheld 金額 必要 (可出現多次)
    social_security_tax_withheld 金額 必要 (可出現多次)
    social_security_wages 金額 必要 (可出現多次)
    wages_tips_other_compensation 金額 必要 (可出現多次)

    您也可以在處理器結構定義中建立及使用其他類型的標籤,例如核取方塊和表格實體。舉例來說,W-2 表單含有「statutory employee」(法定員工)、「retirement plan」(退休計畫) 和「third party sick pay」(第三方病假薪酬) 核取方塊,您可一併新增至結構定義。

    updated-cde-2.0-path-to-docai-4

上傳範例文件

使用範例文件測試。

  1. 選取「Upload sample document」(上傳範例文件)

  2. 在側欄中,選取「Import Document from Cloud Storage」(從 Cloud Storage 匯入文件)

  3. 就這個範例而言,請在「Source path」(來源路徑) 中輸入這個值區名稱,這樣就會直接連結至某份文件。

    cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
    
  4. 選取「Import」(匯入)

系統會將您重新導向至控制台。

為文件加上標籤

在文件中選取文字及套用標籤的程序,稱為「註解」或「加上標籤」

  1. 進入標籤控制台時,您會發現系統已填入許多標籤。這是因為預設的自訂擷取器模型類型是基礎模型,可以執行零樣本預測,也就是不經過訓練。

    updated-cde-2.0-path-to-docai-5

  2. 如要使用建議的標籤,請將滑鼠游標懸停在側邊面板中的每個標籤上,然後點選勾號來確認標籤正確無誤。請勿編輯文字,即使 OCR 未正確判讀文字,也不要修改。

  3. 就這個範例而言,系統不會自動識別文件底部的值,因此您必須手動為這些值加上標籤。

  4. 如要加上標籤,請使用文件上方工具列中的圖示。依預設使用「bounding box」(定界框) 工具,如有多行值,則請使用「Select text」(選取文字) 工具,選取內容並套用標籤。

  5. 選取文字後,畫面上會顯示下拉式選單,其中包含所有已定義的欄位 (實體),請選取一個欄位。就這個範例而言,wages_tips_other_compensation 的值是透過「Bounding box」(定界框) 工具選取,而且也套用了該標籤。

    updated-cde-2.0-path-to-docai-6

  6. 請檢查偵測到的文字值,確保這些值與每個欄位的正確文字位置相符。完成後,加上標籤的 W2 文件應如下所示:

    updated-cde-2.0-path-to-docai-7

  7. 如有需要,您可以點選「Create new field」(建立新欄位),在這個頁面中將新欄位加進結構定義中。

  8. 順利為文件加上註解後,請點選「Mark as labeled」(標示為已加上標籤)。系統會將您重新導向至「Get started」(開始使用) 分頁

使用基礎模型建立處理器版本

為單一文件加上標籤後,您可以使用預先訓練的基礎模型建立處理器版本,藉此擷取實體。

  1. 選取「Build」(建構) 分頁標籤。

    updated-cde-2.0-path-to-docai-8

  2. 在「Call foundation model」(呼叫基礎模型) 下方,點選「Create new version」(建立新版本)

  3. 輸入處理器版本的名稱,例如 w2-foundation-model

  4. 選取「Create version」(建立版本)。建立作業需要幾分鐘才能完成。

  5. 選用:點選「Deploy & use」(部署及使用) 分頁標籤。在這個頁面中,您可以查看可用的處理器版本,以及新版本的部署狀態。

使用生成式 AI 自動為文件加上標籤

基礎模型能精準地擷取各種文件類型的欄位,但您也可以提供其他訓練資料,提高模型處理特定文件結構的準確率。

自訂擷取器會使用您定義的標籤名稱和先前的註解,更輕鬆快速地使用自動加上標籤功能,為大量文件加上標籤。

  1. 前往「Build」(建構) 頁面。

  2. 點選「Import documents」(匯入文件)

  3. 點選側欄中的「Import documents from Google Cloud Storage」(從 Google Cloud Storage 匯入文件)

  4. 輸入包含您的文件的 bucket 名稱。

  5. 在「Data split」(資料分割) 清單中選取「Auto-split」(自動分割),這樣系統就會自動將文件分割為訓練集的 80% 和測試集的 20%。

  6. 在「Auto-labeling」(自動加上標籤) 專區中,勾選「Import with auto-labeling」(使用自動加上標籤功能匯入) 核取方塊。

  7. 選取基礎模型處理器版本,為文件加上標籤。

  8. 點選「Import」(匯入),然後等待系統匯入文件。您可以先離開這個頁面,稍後再返回查看。

  9. 您必須先驗證已自動加上標籤的文件,才能使用這些文件進行訓練或測試。只要點選「Start labeling」(開始設定標籤),即可查看已自動加上標籤的文件。

  10. 如要使用建議的標籤,請將滑鼠游標懸停在每個註解上,然後點選勾號來確認標籤正確無誤。基於訓練目的,如果值與文件文字不符,請勿編輯。如果選取的文字不正確,僅變更定界框。

  11. 順利為文件加上註解後,請點選「Mark as labeled」(標示為已加上標籤)

  12. 請為每份已自動加上標籤的文件重複執行上述步驟。

匯入預先加上標籤的訓練文件

  1. 前往「Build」(建構) 頁面。

  2. 點選「Import documents」(匯入文件)

  3. 在側欄中,選取「Import Document from Cloud Storage」(從 Cloud Storage 匯入文件)

  4. 在包含文件的「Source path」(來源路徑) 中輸入路徑。這個 bucket 應包含以文件 JSON 格式預先加上標籤的文件。

  5. 在「Data split」(資料分割) 清單中選取「Auto-split」(自動分割),這樣系統就會自動將文件分割為訓練集的 80% 和測試集的 20%。取消勾選 [Import with auto-labeling] (使用自動加上標籤功能匯入)

  6. 選取「Import」(匯入)。匯入作業需要幾分鐘才能完成。

選用:查看及管理資料集

  1. 您可以前往「Build」(建構) 頁面的「Manage dataset」(管理資料集) 控制台,查看及編輯資料集中的所有文件與標籤。

訓練以自訂模型為基準的處理器

由於訓練可能需要數小時,因此在開始訓練前,請務必先確認您已使用適當的資料和標籤完成處理器設定。

  1. 如需瞭解資料集相關規定,請在「Train a custom」(訓練自訂模型) 下方點選「Create new version」(建立新版本) 或「View full requirements」(查看完整要求)。這不是生成式 AI 模型,如果是以自訂模型為基準的處理器,每個欄位需要至少 10 個訓練例項,以及 10 個測試例項。

  2. 在「Version name」(版本名稱) 欄位中,輸入這個處理器版本的名稱,例如 w2-custom-model

  3. 選用:點選「View label stats」(查看標籤統計資料),即可看到文件標籤的相關資訊,這有助於您確定涵蓋範圍。接著點選「Close」(關閉) ,返回訓練設定頁面。

  4. 在「Model training method」(模型訓練方法)下方,選取「Model based」(以模型為基準)

  5. 選取「Start training」(開始訓練)。訓練作業需要數小時才能完成。您可以先關閉這個頁面,稍後再返回查看。

  6. 選用:點選「Deploy & use」(部署及使用) 分頁標籤。 在這個頁面中,您可以查看可用的處理器版本,以及新版本的訓練狀態。

部署處理器版本

  1. 訓練完成後,請點選「Deploy & use」(部署及使用) 分頁標籤。

  2. 找到要部署的版本,然後勾選該版本左側的核取方塊,並選取「Deploy」(部署)

  3. 在對話方塊視窗中選取「Deploy」(部署)。部署作業需要幾分鐘才能完成。

  4. 版本部署完成後,您可以將該版本設為「Default version」(預設版本),或在使用 API 處理文件時提供版本 ID。

評估及測試處理器

  1. 點選「Evaluate」(評估) 分頁標籤來測試處理器版本。在這個頁面中,您可以查看整份文件和個別標籤的評估指標,包括 F1 分數、精確度和召回率。如要進一步瞭解評估程序和統計資料,請參閱「評估處理器」。

  2. 點選「Version」(版本) 選取器,然後使用基礎模型選取版本。

  3. 下載未加入先前訓練或測試的文件,以便用於評估處理器版本。如果您是使用自己的資料,可以針對這個用途保留文件。

    下載 PDF

  4. 點選「Upload Test Document」(上傳測試文件),然後選取剛剛下載的文件。系統隨即會開啟「Custom Document Extractor analysis」(自訂文件擷取器分析) 頁面。畫面上的輸出結果會顯示文件擷取的精細程度。

  5. 您可以使用內含自訂訓練模型的版本,再次測試該文件。

使用處理器

您已成功建立及訓練自訂擷取器處理器。

您可以管理自訂訓練的處理器版本,就像其他處理器版本一樣。詳情請參閱「管理處理器版本」。

如要使用 Document AI API,請按照下列指示操作:

  • 參考「傳送處理要求」中的程式碼範例,使用線上或批次處理功能。
    • 如要瞭解線上和批次處理功能支援的頁數,請參閱「配額與限制」。
  • 參考「控管處理回應」中的自訂擷取器程式碼範例,取得處理器擷取的實體。

清除所用資源

如要避免系統向您的 Google Cloud 帳戶收取您在本頁所用資源的費用,請按照下列步驟操作。

請透過Google Cloud console 刪除不需要的處理器和專案,以免產生不必要的 Google Cloud 費用。

如果您建立新專案的目的在於瞭解如何使用 Document AI,且現在已不再需要該項專案,請刪除專案

如果您使用現有的 Google Cloud 專案,請刪除稍早建立的資源,以免系統向您的帳戶收取費用。

  1. 在 Google Cloud 控制台導覽選單中,依序選取「Document AI」和「My Processors」(我的處理器)

  2. 找到要刪除的處理器,然後點選該列中的「More actions」(更多動作)

  3. 選取「Delete processor」(刪除處理器),輸入處理器名稱,然後再次選取「Delete」(刪除) 來確認操作。

後續步驟

詳情請參閱「指南」。