文字認識機能について

光学式文字認識(OCR)は、Google Distributed Cloud(GDC)のエアギャップにある 3 つの Vertex AI 事前トレーニング済み API の 1 つです。OCR サービスは、画像、ドキュメント ファイル、手書き文字など、さまざまなファイル形式のテキストを検出します。

OCR には、Distributed Cloud でテキストを認識するために使用できる次のメソッドがあります。

メソッド 説明
BatchAnnotateImages インライン リクエストで提供された JPEG または PNG 画像のバッチからテキストを検出します。
BatchAnnotateFiles インライン リクエストで提供された PDF ファイルまたは TIFF ファイルのバッチからテキストを検出します。
AsyncBatchAnnotateFiles オフライン リクエスト用に、ストレージ バケット内の PDF ファイルまたは TIFF ファイルのバッチからテキストを検出します。

テキスト認識機能で検出されるサポート対象の言語について詳しくは、こちらをご覧ください。

光学式文字認識機能

OCR API では、画像からテキストを検出、抽出できます。次の 2 つのアノテーション機能は、光学式文字認識をサポートしています。

  • TEXT_DETECTION は、任意の画像からテキストを検出、抽出します。たとえば、写真に道路名や交通標識が写っていれば、OCR サービスは、抽出された文字列、個々の単語、それらの境界ボックスを含む JSON ファイルを返します。

    個々の単語とテキスト検出用の境界ボックスを含む道路標識

    図 1: OCR API が単語とその境界ボックスを検出した道路標識の写真。

  • DOCUMENT_TEXT_DETECTION も画像からテキストを抽出しますが、サービスは高密度のテキストやドキュメントに応じてレスポンスを最適化します。たとえば、入力されたテキストのスキャン画像には、複数の段落と見出しが含まれている場合があります。OCR サービスは、ページ、ブロック、段落、単語、改行の情報を含む JSON ファイルを返します。

    アノテーションの割合が高い手書きテキストの画像のスキャン

    図 2. OCR API が単語、ページ、段落などの情報を検出した、入力されたテキストのスキャン画像。

手書きテキスト

図 3 は手書きテキストの画像です。OCR API は、これらの画像からテキストを検出して抽出します。手書き入力認識をサポートする手書きスクリプトの一覧については、手書きスクリプトをご覧ください。

手書きの図

図 3. OCR API がテキストを検出した手書き文字の画像。

光学式文字認識の制限

BatchAnnotateImages API メソッドと BatchAnnotateFiles API メソッドは、バッチ呼び出しごとに 1 つのリクエストのみをサポートします。

次の表に、Distributed Cloud の OCR サービスの現在の上限を示します。

OCR のファイル上限
最大ページ数 5
最大ファイルサイズ 20 MB
最大画像サイズ 2,000 万ピクセル(長さ x 幅)

OCR API に送信されたファイルが最大ページ数または最大ファイル サイズを超えている場合、エラーが返されます。最大画像サイズを超えるファイルが送信された場合は、2,000 万ピクセルに縮小されます。

OCR でサポートされているファイル形式

OCR 事前トレーニング済み API は、次のファイル形式のテキストを検出して文字起こしします。

  • PDF
  • TIFF
  • JPG
  • PNG

ファイルは Distributed Cloud 環境にローカルに保存する必要があります。Cloud Storage でホストされているファイルや、一般公開されているファイルにアクセスしてテキスト検出を行うことはできません。