文件拆分工具行為
分割器處理器輸出內容包含輸入文件的分割資訊,包括置信度分數。Document AI API 會輸出 Document
JSON 物件,輸出格式會使用 entities
欄位來代表文件分割作業。其他資訊則視具體分隔器類型而定。
Entity.type
會指定文件分類。如需可識別的文件類型完整清單,請參閱以下清單。Entity.pageAnchor.pageRefs[]
會指定包含各個子文件的網頁。請注意,pageRefs[].page
是以零為基數,也是document.pages[]
欄位的索引。
分割器無法分割超過 30 頁的邏輯文件。長度超過 30 頁的邏輯文件 (例如 40 頁的銀行對帳單) 可能會分成兩份或更多份文件,並分別分類。
分隔符可辨識頁面邊界,但「不會」實際為您分割輸入的文件。Document AI Toolbox SDK 提供公用程式函式,可根據分割處理器的輸出內容,分割輸入文件。
已識別的文件類型
[1] 這個表單對應的剖析器不支援此文件類型。也就是說,分割器可以識別及分類這類文件,但 Document AI 並未提供剖析器來擷取資訊。
輸出內容範例
處理器 | 輸出內容範例 |
---|
程式碼範例
分割器會辨識頁面邊界,但不會實際為您分割輸入文件。您可以使用 Document AI Toolbox 透過頁面邊界實際分割 PDF 檔案。下列程式碼範例會在不分割 PDF 的情況下列印頁面範圍:
Java
詳情請參閱 Document AI Java API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Node.js
詳情請參閱 Document AI Node.js API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Python
詳情請參閱 Document AI Python API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。
Document
頁面邊界,將 PDF 檔案分割。Python
詳情請參閱 Document AI Python API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。