文档分割器行为
拆分器处理器的输出包含输入文档的拆分信息,包括置信度得分。Document AI API 会输出 Document
JSON 对象,并且输出格式使用 entities
字段来表示文档拆分。其他信息取决于分线器的具体类型。
Entity.type
指定文档分类。如需查看可识别的证件类型的完整列表,请参阅以下列表。Entity.pageAnchor.pageRefs[]
用于指定包含每个子文档的网页。请注意,pageRefs[].page
从零开始,是document.pages[]
字段的索引。
拆分器不适合拆分超过 30 页的逻辑文档。超过 30 页的逻辑文档(例如 40 页的银行对账单)可能会拆分为两个或更多文档并单独分类。
拆分器可识别页面边界,但不会实际拆分输入文档。 Document AI Toolbox SDK 提供了一些实用函数,这些函数可以根据拆分器处理器的输出拆分输入文档。
已识别的证件类型
[1] 相应表单的解析器不支持此文档类型。这意味着拆分器可以识别并分类此类文档,但 Document AI 不提供用于提取信息的解析器。
输出示例
处理器 | 输出示例 |
---|
代码示例
拆分器可识别页面边界,但不会实际拆分输入文档。您可以使用 Document AI 工具箱,通过页面边界来实际拆分 PDF 文件。 以下代码示例会打印指定页范围,而不会拆分 PDF:
Java
如需了解详情,请参阅 Document AI Java API 参考文档。
如需向 Document AI 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
Node.js
如需了解详情,请参阅 Document AI Node.js API 参考文档。
如需向 Document AI 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
Python
如需了解详情,请参阅 Document AI Python API 参考文档。
如需向 Document AI 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
Document
中的页面边界拆分 PDF 文件。
Python
如需了解详情,请参阅 Document AI Python API 参考文档。
如需向 Document AI 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。