限制

本文档列出了适用于 Document AI 的系统限制。与配额不同,系统限制无法更改。

内容限制

以下内容限制适用于所有 Document AI 处理器。

内容限制
最大图片分辨率
(此限制不适用于 PDF 文件)
4,000 万像素(如果图片包含多个页面,则为每页的像素数)
在线处理请求的文件大小上限 40 MB
批处理请求的文件大小上限 1 GB
每个批处理请求的文件数量 5,000 个文件

处理方限制

限制在当前列表中定义。

提取处理器

处理器 限制
自定义提取器
最大页数(在线/同步请求): 15
页数上限(批量/离线/异步请求): 200
最大页数(无图片模式下的在线/同步请求): 30
表单解析器
最大页数(在线/同步请求): 15
页数上限(批量/离线/异步请求): 100
最大页数(无图片模式在线/同步请求): 30
布局解析器
最大页数(在线/同步请求): 15
页数上限(批量/离线/异步请求): 500
最大页数(无图片模式在线/同步请求): 30

分类处理器

处理器 限制
自定义分类器
最大页数(在线/同步请求): 15
页数上限(批量/离线/异步请求): 200
最大页数(无图片模式下的在线/同步请求): 30
自定义拆分器
最大页数(在线/同步请求): 15
页数上限(批量/离线/异步请求): 1000
最大页数(无图片模式下的在线/同步请求): 30

数字化处理器

处理器 限制
Enterprise Document OCR(光学字符识别)
最大页数(在线/同步请求): 15
页数上限(批量/离线/异步请求): 500
最大页数(无图片模式在线/同步请求): 30

预训练处理器

处理器 限制
银行对账单解析器
最大页数(在线/同步请求): 15
页数上限(批量/离线/异步请求): 30
最大页数(无图片模式下的在线/同步请求): 30
W2 解析器
最大页数(在线/同步请求): 15
页数上限(批量/离线/异步请求): 15
最大页数(无图片模式下的在线/同步请求): 15
美国护照解析器
最大页数(在线/同步请求): 2
页数上限(批量/离线/异步请求): 2
最大页数(无图片模式下的在线/同步请求): 2
实用程序解析器
最大页数(在线/同步请求): 10
页数上限(批量/离线/异步请求): 200
最大页数(无图片模式下的在线/同步请求): 30
身份证明文档校对解析器
最大页数(在线/同步请求): 2
页数上限(批量/离线/异步请求): 2
最大页数(无图片模式下的在线/同步请求): 2
工资单解析器
最大页数(在线/同步请求): 15
页数上限(批量/离线/异步请求): 50
最大页数(无图片模式下的在线/同步请求): 30
美国驾照解析器
最大页数(在线/同步请求): 2
页数上限(批量/离线/异步请求): 2
最大页数(无图片模式下的在线/同步请求): 2
费用解析器
最大页数(在线/同步请求): 10
页数上限(批量/离线/异步请求): 10
最大页数(无图片模式下的在线/同步请求): 10
账单解析器
最大页数(在线/同步请求): 15
页数上限(批量/离线/异步请求): 200
最大页数(无图片模式下的在线/同步请求): 30

Document AI 的限制

Document AI 目前存在以下限制。

条件 稳定版 - 2023 年 7 月
数据集
  • 总共最多 3 万个文档
  • 总页数上限为 25 万页
文档导入
  • 每次导入最多可导入 5,000 个文档
  • 每个文档最多 200 页
训练自定义文档提取器 (CDE) 的限制 基于模型的训练 (正式版)
  • 训练数据集上限:25,000 份文档;100,000 页
  • 训练数据集最低要求:每个标签在每 10 个文档中至少需要出现 1 次
  • 测试数据集上限:2,000 份文档;8,000 页
  • 测试数据集最低要求:每个标签至少出现在 10 个文档中
  • 每个文档最多 200 页

基于模板的训练 (GA)
  • 训练数据集上限:300 份文档,300 页
  • 训练数据集最低要求:每个标签至少出现在 3 个文档中
  • 测试数据集上限:2,000 份文档;8,000 页
  • 测试数据集最低要求:每个标签至少出现在 3 个文档中
  • 每个文档最多 20 页
训练自定义文档分类器 (CDC) 或自定义文档拆分器 (CDS) 的限制
  • 训练数据集上限:3 万个文档;10 万页
  • 训练数据集最低要求:每个标签至少出现在 10 个文档中
  • 测试数据集上限:2,000 份文档;8,000 页
  • 测试数据集最低要求:每个标签至少出现在 2 个文档中
  • 每个文档最多 200 页
标签
  • 首先,请验证文档标签是否满足定义的最低训练和评估阈值。
  • 如需开始评估布局各异的文档的模型性能,请为至少 100 份文档添加标签。具体而言,请验证每个标签在训练集中和评估集中是否都存在于 50 个文档中。
  • 允许的最大标签(字段)数:150
  • 标签大小限制(字符数):不支持过长的内容,但没有明确的限制。将文档分块为 800 或 1,000 个 token 的块,块之间有 100 到 200 个 token 的重叠。(如果商品长度超过重叠区域,可能会出现质量问题。)
  • 文档中的标签出现次数:无限制
地理位置覆盖范围
  • 一般支持的区域:美国、欧盟(多区域)
  • 使用受限的地区:德国、新加坡、英国、加拿大、印度、澳大利亚