Document AI 可讓您使用自己的訓練資料訓練新的處理器版本,並根據自己的測試資料評估處理器版本的品質。
如果您想使用自訂處理器,這個方法就非常實用。Document AI 針對您的文件類型提供處理器,但您可以進階訓練自訂版本,以滿足需求。
訓練和評估通常會同步進行,以便反覆運算,最終產生高品質且實用的處理器版本。
Document AI
Document AI 可讓您建構自己的自訂擷取器,從特定類型的文件中擷取實體,例如菜單中的項目,或是履歷表中的姓名和聯絡資訊。
與其他處理器不同,自訂處理器不會隨附任何預先訓練的處理器版本,因此必須從頭訓練版本,才能處理文件。
如要開始使用 Document AI,請參閱「建立自訂處理器」。
進階訓練處理器
您可以進階訓練新版處理器,提高資料準確度、從文件中擷取其他自訂欄位,以及新增語言支援。
升級訓練作業會對 Google 預先訓練的處理器版本套用遷移學習,通常需要的資料量會少於從頭開始訓練。
如要開始使用,請參閱「對預先訓練的處理器展開進階訓練」。
支援的處理器
並非所有專用處理器都支援升級訓練。以下是支援訓練的處理器。
資料注意事項和建議
資料的品質和數量會決定訓練、再訓練和評估的品質。
取得一組具代表性的實際文件,並提供足夠的高品質標籤,往往是整個流程中最耗時且耗費資源的部分。
文件數量
如果所有文件格式相似 (例如變異程度極低的固定表單),則只需較少文件即可達到準確度。變異程度越高,所需文件就越多。
下圖提供粗略估計,說明自訂文件擷取工具達到特定品質分數所需的檔案數量。
| 變化較小 | 變化較大 | 
|---|---|
|  |  | 
資料標籤
請考慮標記文件的選項,並確保有足夠的資源可為資料集中的文件加上註解。
訓練模型
自訂擷取器處理器可根據特定用途和可用的訓練資料,使用不同類型的模型。
- 自訂模型:使用加上標籤的訓練資料的模型。- 以範本為基礎:版面配置固定的文件。
- 以模型為基礎:版面配置變化量適中的文件。
 
- 生成式 AI 模型:以預先訓練的基礎模型為基礎,只需進行少量額外訓練。
下表說明各模型類型對應的使用案例。
| 自訂模型 | 生成式 AI | ||
|---|---|---|---|
| 以範本為準 | 以模型為準 | ||
| 版面配置變化 | 無 | 低至中 | 高 | 
| 任意形式文字的數量 (例如合約中的段落) | 低 | 低 | 高 | 
| 所需訓練資料量 | 低 | 高 | 低 | 
| 訓練資料有限時的準確度 | 較高 | 較低 | 較高 | 
瞭解如何使用屬性說明微調處理器。
使用其他處理器的時機
在下列情況中,您可能需要考慮 Document AI Document AI Workbench 以外的選項,或調整工作流程。
- Document AI Workbench 不支援特定文字格式的輸入內容 (例如 .txt、.html、.docx、.md 等)。考慮使用 Google Cloud中的其他預先建構或自訂語言處理服務,例如 Cloud Natural Language API。
- 自訂文件擷取器結構定義最多支援 150 個實體標籤。如果業務邏輯需要在結構定義中納入超過 150 個實體,建議訓練多個處理器,每個處理器都以實體子集為目標。
如何訓練處理器
假設您已建立支援訓練或進階訓練的處理器,並為資料集加上標籤,即可從頭開始訓練新的處理器版本。您也可以根據現有版本對新的處理器版本進行進階訓練。
訓練處理器版本
網路使用者介面
- 前往 Google Cloud 控制台的處理器「Train」(訓練) 分頁。 
- 按一下「編輯結構定義」,開啟「管理標籤」頁面。驗證處理器的標籤。 - 訓練時啟用的標籤會決定新版處理器擷取的實體。如果標籤在結構定義中處於非使用中狀態,即使文件已加上標籤,處理器版本也不會擷取該標籤。 
- 在「Train」(訓練) 分頁中,按一下「View Label Stats」(查看標籤統計資料),然後驗證測試和訓練集。自動加上標籤、未加上標籤或未指派的文件不會用於訓練和評估。 
- 按一下「訓練新版本」。 - 「版本名稱」會定義 - processorVersion的- name欄位。 
- 按一下「開始訓練」,然後等待系統訓練及評估新版處理器。 - 您可以在「管理版本」分頁中監控訓練進度:  
- 按一下「評估與測試」分頁標籤,即可查看新版處理器在測試集中的成效。詳情請參閱「評估處理器版本」。 
Python
詳情請參閱 Document AI Python API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
部署及使用處理器版本
您可以部署及管理處理器版本,就像其他處理器版本一樣。詳情請參閱「管理處理器版本」。
部署完成後,您可以傳送處理要求至自訂處理器。
停用或刪除處理器
如果不想再使用處理器,可以停用或刪除。如果停用處理器,可以重新啟用。處理器刪除後就無法復原。
- 在左側的「Document AI」面板中,按一下「My processors」(我的處理器)。 
- 按一下處理器名稱右側的垂直三點圖示,按一下「停用處理器」或「刪除處理器」。 
詳情請參閱「管理處理器版本」。
訓練資料加密
Document AI 訓練資料會儲存在 Cloud Storage 中,並可視需要使用客戶管理的加密金鑰加密。
刪除訓練資料
Document AI 訓練工作完成後,儲存在 Cloud Storage 中的所有訓練資料會在兩天的保留期限過後失效。後續的資料刪除活動會遵循「資料刪除 Google Cloud」一節所述程序。
定價
訓練或進修課程皆不收費。您需要支付主機和預測費用。 詳情請參閱「Document AI 定價」。