自訂擷取器機制
您可以建立文件專屬的自訂擷取器,並透過資料訓練和評估。這個處理器可辨識並擷取文件中的實體。完成訓練後,您可以在其他文件中使用該處理器。
事前準備
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
建立處理器
在 Google Cloud 控制台,依序前往「Document AI」專區和「Workbench」頁面。
在「custom extractor」(自訂擷取器) 部分,選取
「Create processor」(建立處理器) 。在「Create processor」(建立處理器) 選單中,輸入處理器名稱,例如
my-custom-document-extractor
。請選取最近的區域。
選用:開啟「Advanced options」(進階選項)
您可以選擇讓 Google 代為建立 Cloud Storage bucket,或者自行建立 bucket。進行本教學課程時,請選取「Google-managed storage」(Google 代管的儲存空間)。
您也能選擇使用 Google 代管或客戶自行管理的加密金鑰 (CMEK)。 在本教學課程中,請選取 Google-managed encryption key。
選取「Create」(建立) 即可建立處理器。
定義處理器欄位
現在您已進入新建處理器的「Processor overview」(處理器總覽) 頁面。

您可以指定要讓處理器擷取的欄位,然後開始為文件加上標籤。
選取
「Get started」(開始使用) 分頁標籤。系統隨即會顯示「fields」(欄位) 選單。選取「Create new field」(建立新欄位)。
輸入欄位名稱。選取「Data type」(資料類型) 和「Occurrence」(發生次數)。為標籤提供描述性且獨特的說明。您可以透過屬性說明為每個實體提供額外背景資訊、洞察資料和相關知識,以提升擷取準確度和效能。

- 選取 [Create] (建立)。如需建立與編輯結構定義的詳細操作說明,請參閱「定義處理器結構定義」。
為處理器結構定義建立下列每個標籤。
名稱 資料類型 發生次數 control_number
數字 選用 (可出現多次) employees_social_security_number
數字 必要 (可出現多次) employer_identification_number
數字 必要 (可出現多次) employers_name_address_and_zip_code
地址 必要 (可出現多次) federal_income_tax_withheld
金額 必要 (可出現多次) social_security_tax_withheld
金額 必要 (可出現多次) social_security_wages
金額 必要 (可出現多次) wages_tips_other_compensation
金額 必要 (可出現多次) 您也可以在處理器結構定義中建立及使用其他類型的標籤,例如核取方塊和表格實體。舉例來說,W-2 表單含有「statutory employee」(法定員工)、「retirement plan」(退休計畫) 和「third party sick pay」(第三方病假薪酬) 核取方塊,您可一併新增至結構定義。
上傳範例文件
使用範例文件測試。
選取「Upload sample document」(上傳範例文件)。
在側欄中,選取「Import Document from Cloud Storage」(從 Cloud Storage 匯入文件)。
就這個範例而言,請在
「Source path」(來源路徑) 中輸入這個值區名稱,這樣就會直接連結至某份文件。cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
選取「Import」(匯入)。
系統會將您重新導向至控制台。
為文件加上標籤
在文件中選取文字及套用標籤的程序,稱為「註解」或「加上標籤」。
進入標籤控制台時,您會發現系統已填入許多標籤。這是因為預設的自訂擷取器模型類型是基礎模型,可以執行零樣本預測,也就是不經過訓練。
如要使用建議的標籤,請將滑鼠游標懸停在側邊面板中的每個
標籤 上,然後點選勾號來確認標籤正確無誤。請勿編輯文字,即使 OCR 未正確判讀文字,也不要修改。就這個範例而言,系統不會自動識別文件底部的值,因此您必須手動為這些值加上標籤。
如要加上標籤,請使用文件上方工具列中的圖示。依預設使用
「bounding box」(定界框) 工具,如有多行值,則請使用「Select text」(選取文字) 工具,選取內容並套用標籤。選取文字後,畫面上會顯示下拉式選單,其中包含所有已定義的欄位 (實體),請選取一個欄位。就這個範例而言,
wages_tips_other_compensation
的值是透過「Bounding box」(定界框) 工具選取,而且也套用了該標籤。請檢查偵測到的文字值,確保這些值與每個欄位的正確文字位置相符。完成後,加上標籤的 W2 文件應如下所示:
如有需要,您可以點選
「Create new field」(建立新欄位) ,在這個頁面中將新欄位加進結構定義中。順利為文件加上註解後,請點選
「Mark as labeled」(標示為已加上標籤) 。系統會將您重新導向至「Get started」(開始使用) 分頁。
使用基礎模型建立處理器版本
為單一文件加上標籤後,您可以使用預先訓練的基礎模型建立處理器版本,藉此擷取實體。
選取
「Build」(建構) 分頁標籤。在「Call foundation model」(呼叫基礎模型) 下方,點選「Create new version」(建立新版本)。
輸入處理器版本的名稱,例如
w2-foundation-model
。選取「Create version」(建立版本)。建立作業需要幾分鐘才能完成。
選用:點選
「Deploy & use」(部署及使用) 分頁標籤。在這個頁面中,您可以查看可用的處理器版本,以及新版本的部署狀態。
使用生成式 AI 自動為文件加上標籤
基礎模型能精準地擷取各種文件類型的欄位,但您也可以提供其他訓練資料,提高模型處理特定文件結構的準確率。
自訂擷取器會使用您定義的標籤名稱和先前的註解,更輕鬆快速地使用自動加上標籤功能,為大量文件加上標籤。
前往
「Build」(建構) 頁面。點選
「Import documents」(匯入文件) 。點選側欄中的「Import documents from Google Cloud Storage」(從 Google Cloud Storage 匯入文件)。
輸入包含您的文件的 bucket 名稱。
在「Data split」(資料分割) 清單中選取「Auto-split」(自動分割),這樣系統就會自動將文件分割為訓練集的 80% 和測試集的 20%。
在「Auto-labeling」(自動加上標籤) 專區中,勾選
「Import with auto-labeling」(使用自動加上標籤功能匯入) 核取方塊。選取基礎模型處理器版本,為文件加上標籤。
點選「Import」(匯入),然後等待系統匯入文件。您可以先離開這個頁面,稍後再返回查看。
您必須先驗證已自動加上標籤的文件,才能使用這些文件進行訓練或測試。只要點選
「Start labeling」(開始設定標籤) ,即可查看已自動加上標籤的文件。如要使用建議的標籤,請將滑鼠游標懸停在每個
註解 上,然後點選勾號來確認標籤正確無誤。基於訓練目的,如果值與文件文字不符,請勿編輯。如果選取的文字不正確,僅變更定界框。順利為文件加上註解後,請點選
「Mark as labeled」(標示為已加上標籤) 。請為每份已自動加上標籤的文件重複執行上述步驟。
匯入預先加上標籤的訓練文件
前往
「Build」(建構) 頁面。點選
「Import documents」(匯入文件) 。在側欄中,選取「Import Document from Cloud Storage」(從 Cloud Storage 匯入文件)。
在包含文件的「Source path」(來源路徑) 中輸入路徑。這個 bucket 應包含以文件 JSON 格式預先加上標籤的文件。
在「Data split」(資料分割) 清單中選取「Auto-split」(自動分割),這樣系統就會自動將文件分割為訓練集的 80% 和測試集的 20%。取消勾選 [Import with auto-labeling] (使用自動加上標籤功能匯入)。
選取「Import」(匯入)。匯入作業需要幾分鐘才能完成。
選用:查看及管理資料集
- 您可以前往「Build」(建構) 頁面的
「Manage dataset」(管理資料集) 控制台,查看及編輯資料集中的所有文件與標籤。
訓練以自訂模型為基準的處理器
由於訓練可能需要數小時,因此在開始訓練前,請務必先確認您已使用適當的資料和標籤完成處理器設定。
如需瞭解資料集相關規定,請在「Train a custom」(訓練自訂模型) 下方點選「Create new version」(建立新版本) 或「View full requirements」(查看完整要求)。這不是生成式 AI 模型,如果是以自訂模型為基準的處理器,每個欄位需要至少 10 個訓練例項,以及 10 個測試例項。
在「Version name」(版本名稱) 欄位中,輸入這個處理器版本的名稱,例如
w2-custom-model
。選用:點選「View label stats」(查看標籤統計資料),即可看到文件標籤的相關資訊,這有助於您確定涵蓋範圍。接著點選「Close」(關閉) ,返回訓練設定頁面。
在「Model training method」(模型訓練方法)下方,選取「Model based」(以模型為基準)。
選取「Start training」(開始訓練)。訓練作業需要數小時才能完成。您可以先關閉這個頁面,稍後再返回查看。
選用:點選
「Deploy & use」(部署及使用) 分頁標籤。 在這個頁面中,您可以查看可用的處理器版本,以及新版本的訓練狀態。
部署處理器版本
訓練完成後,請點選
「Deploy & use」(部署及使用) 分頁標籤。找到要部署的版本,然後勾選該版本左側的核取方塊,並選取「Deploy」(部署)。
在對話方塊視窗中選取「Deploy」(部署)。部署作業需要幾分鐘才能完成。
版本部署完成後,您可以將該版本設為
「Default version」(預設版本) ,或在使用 API 處理文件時提供版本 ID。
評估及測試處理器
點選
「Evaluate」(評估) 分頁標籤來測試處理器版本。在這個頁面中,您可以查看整份文件和個別標籤的評估指標,包括 F1 分數、精確度和召回率。如要進一步瞭解評估程序和統計資料,請參閱「評估處理器」。點選
「Version」(版本) 選取器,然後使用基礎模型選取版本。下載未加入先前訓練或測試的文件,以便用於評估處理器版本。如果您是使用自己的資料,可以針對這個用途保留文件。
點選
「Upload Test Document」(上傳測試文件) ,然後選取剛剛下載的文件。系統隨即會開啟「Custom Document Extractor analysis」(自訂文件擷取器分析) 頁面。畫面上的輸出結果會顯示文件擷取的精細程度。您可以使用內含自訂訓練模型的版本,再次測試該文件。
使用處理器
您已成功建立及訓練自訂擷取器處理器。
您可以管理自訂訓練的處理器版本,就像其他處理器版本一樣。詳情請參閱「管理處理器版本」。
如要使用 Document AI API,請按照下列指示操作:
清除所用資源
如要避免系統向您的 Google Cloud 帳戶收取您在本頁所用資源的費用,請按照下列步驟操作。
請透過Google Cloud console 刪除不需要的處理器和專案,以免產生不必要的 Google Cloud 費用。
如果您建立新專案的目的在於瞭解如何使用 Document AI,且現在已不再需要該項專案,請刪除專案。
如果您使用現有的 Google Cloud 專案,請刪除稍早建立的資源,以免系統向您的帳戶收取費用。
在 Google Cloud 控制台導覽選單中,依序選取「Document AI」和「My Processors」(我的處理器)。
找到要刪除的處理器,然後點選該列中的
「More actions」(更多動作) 。選取「Delete processor」(刪除處理器),輸入處理器名稱,然後再次選取「Delete」(刪除) 來確認操作。
後續步驟
詳情請參閱「指南」。