了解字符识别功能

光学字符识别 (OCR) 是 Google Distributed Cloud (GDC) 气隙环境中的三项 Vertex AI 预训练 API 之一。OCR 服务可检测各种文件类型(例如图片、文档文件和手写文本)中的文本。

OCR 提供以下方法,可在 Distributed Cloud 中识别文本:

方法 说明
BatchAnnotateImages 检测内嵌请求中提供的一批 JPEG 或 PNG 图片中的文本。
BatchAnnotateFiles 检测内嵌请求中提供的一批 PDF 或 TIFF 文件中的文本。
AsyncBatchAnnotateFiles 检测存储桶中一批 PDF 或 TIFF 文件中的文本,以用于离线请求。

详细了解文字识别功能检测到的支持的语言

光学字符识别功能

OCR API 可以检测并提取图片中的文本。以下两种注解功能支持光学字符识别:

  • TEXT_DETECTION 可检测并提取任何图片中的文本。例如,某张照片可能包含街道标志或交通标志。OCR 服务会返回一个 JSON 文件,其中包含提取的字符串、单个字词及其边界框。

    包含单个字词和边界框的道路标志,用于文本检测

    图 1. 道路标志照片,其中 OCR API 检测到字词及其边界框。

  • DOCUMENT_TEXT_DETECTION 也可提取图片中的文本,但该服务会针对密集文本和文档优化响应。例如,扫描的文本图像可能包含多个段落和标题。OCR 服务会返回一个 JSON 文件,其中包含页面、文本块、段落、字词和换行信息。

    扫描的文字图片,其中包含大量注释

    图 2. 包含打印文本的扫描图片,OCR API 可检测其中的字词、页面和段落等信息。

手写文字

图 3 是一张手写文字的图片。OCR API 会检测并提取这些图片中的文本。如需查看支持手写识别的手写文字列表,请参阅手写文字

手写数字

图 3.OCR API 检测到文本的手写图片。

光学字符识别限制

BatchAnnotateImagesBatchAnnotateFiles API 方法仅支持每个批次调用一个请求。

下表列出了分布式云中 OCR 服务的当前限额。

OCR 的文件数量限制
最大页数 5
文件大小上限 20 MB
图片大小上限 2,000 万像素(长 x 宽)

如果为 OCR API 提交的文件超出最大页数或文件大小上限,系统会返回错误。提交的文件如果超出最大图片尺寸,系统会将其缩小到 2000 万像素。

支持的 OCR 文件类型

OCR 预训练 API 可检测并转写以下文件类型中的文本:

  • PDF
  • TIFF
  • JPG
  • PNG

您必须将文件存储在 Distributed Cloud 环境中的本地。您无法访问 Cloud Storage 中托管的文件或可公开访问的文件以进行文本检测。