表單剖析器會擷取鍵/值組合 (KVP)、表格、選取標記 (例如核取方塊)、一般欄位和文字,以擴增及自動化文件處理程序。
如果用途涉及下列情況,建議考慮使用表單剖析器:
- 處理結構化表單:擅長從定義完善的表單中擷取 KVP,這類表單看起來就像傳統表單,有標示要填入的空白處,例如 name: __。Form Parser 的預先訓練模型可準確辨識常見欄位,例如姓名、日期和地址。
- 需要彈性表格擷取功能:表單剖析器會從簡單的表格 (沒有跨列或欄的儲存格) 擷取資料。不需要 (也無法) 訓練。如果是經過訓練的表格擷取器,自訂擷取器可搭配含有資料欄 (儲存格) 子欄位的父項欄位使用。
- 需要效率:避免建構及維護擷取剖析器,特別是針對大量且多樣的擷取工作。
資料擷取功能
表單剖析器功能包括:
- 鍵/值組:這是文件中的兩項一組,包括標籤或鍵,以及對應的資料 (值)。您可以直接使用 KVP (如果鍵一致),或建立自訂邏輯,將不同的鍵解析為一致的結構化資訊。 
- 一般實體:從文件剖析 11 個不同的欄位,包括: - email
- phone
- url
- date_time
- address
- person
- organization
- quantity
- price
- id
- page_number
 
- 文字和版面配置:使用最新的 OCR 引擎擷取文字和版面配置資訊。包括數位 PDF 中的內嵌文字 (僅限 2.1 版) 或圖片中的文字。 
- 表格:偵測並擷取圖片和 PDF 中的表格。 
- 核取方塊:高品質的選取標記偵測器,可從圖片和 PDF 輸出內容中擷取核取方塊,並使用最靠近核取方塊的文字做為 KVP,並以 - valueType指出核取方塊是否已填寫。
語言和地區
模型版本
這項功能支援下列處理器版本。詳情請參閱「管理處理器版本」。
限制
- TIFF 不支援先前的 JPEG 壓縮。TIFF 6.0 版規格定義的 JPEG 封裝類型。 
- 核取方塊模型不支援剖析單選按鈕。系統偵測到的部分核取方塊可能沒有對應的鍵。 
- 模型無法可靠地剖析值未填寫的 KVP,例如空白表單。 
- 以特定語言撰寫的文件,其 KVP 剖析品質可能不如拉丁語系的文件。 
使用表單剖析器處理文件
本快速入門導覽課程介紹 Document AI 的表單剖析器功能。在這堂快速入門導覽課程中,您將使用 Google Cloud 控制台設定 Google Cloud 專案與授權、建立表單剖析器,以及要求 Document AI 處理 PDF 表單。
您可以瞭解如何執行下列作業:
- 在 Google Cloud 專案中啟用 Document AI。 
- 建立表單剖析器處理器,以便在多種文件中識別並擷取文字、鍵/值組合、資料表和一般實體。 
- 使用處理器標註範例文件。 
如要直接在 Google Cloud 控制台按照逐步指南操作,請按一下「Guide me」(逐步引導):
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
- 
    
    
      In the Google Cloud console, on the project selector page, select or create a Google Cloud project. Roles required to select or create a project - Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- 
      Create a project: To create a project, you need the Project Creator
      (roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
 
- 
  
    Verify that billing is enabled for your Google Cloud project. 
- 
  
  
    
      Enable the Document AI API. Roles required to enable APIs To enable APIs, you need the Service Usage Admin IAM role ( roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
- 
    
    
      In the Google Cloud console, on the project selector page, select or create a Google Cloud project. Roles required to select or create a project - Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- 
      Create a project: To create a project, you need the Project Creator
      (roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
 
- 
  
    Verify that billing is enabled for your Google Cloud project. 
- 
  
  
    
      Enable the Document AI API. Roles required to enable APIs To enable APIs, you need the Service Usage Admin IAM role ( roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
- 按一下 Google Cloud 控制台導覽選單中的「Document AI」,然後選取「Processor Gallery」(處理器庫)。 
- 在「Processor Gallery」(處理器庫) 中 - 搜尋 「Form Parser」(表單剖析器),然後選取「Create」(建立)。  
- 在側邊視窗中輸入處理器名稱,例如 - quickstart-form-processor。
- 請選取最近的區域。 
- 按一下 [建立] 按鈕。 
- 
這是一份 PDF 檔案,當中包含手寫醫療入院表單範例。這份文件儲存在可公開存取的 Cloud Storage bucket。 
- 按一下 - 「Upload Test Document」(上傳測試文件) 按鈕,然後選取剛才下載的文件。
- 接下來,您應該會進入「Form Parser analysis」(表單剖析器分析) 頁面。您可以查看從文件中擷取的 OCR 偵測到的文字、鍵/值組合、表格和一般實體。     
- 查看處理器清單。
建立表單剖析處理器
使用 Google Cloud 控制台建立表單剖析處理器。詳情請參閱「建立及管理處理器」。
系統會將您導向新表單剖析器處理器的「Processor Details」(處理器詳細資料) 頁面。
測試處理器
建立處理器後,您可以將註解要求傳送至處理器。
清除所用資源
請透過Google Cloud console 刪除不需要的處理器和專案,以免產生不必要的 Google Cloud 費用。