光学式文字認識(OCR)は、Google Distributed Cloud(GDC)のエアギャップにある 3 つの Vertex AI 事前トレーニング済み API の 1 つです。OCR サービスは、画像、ドキュメント ファイル、手書き文字など、さまざまなファイル形式のテキストを検出します。
OCR には、Distributed Cloud でテキストを認識するために使用できる次のメソッドがあります。
メソッド | 説明 |
---|---|
BatchAnnotateImages |
インライン リクエストで提供された JPEG または PNG 画像のバッチからテキストを検出します。 |
BatchAnnotateFiles |
インライン リクエストで提供された PDF ファイルまたは TIFF ファイルのバッチからテキストを検出します。 |
AsyncBatchAnnotateFiles |
オフライン リクエスト用に、ストレージ バケット内の PDF ファイルまたは TIFF ファイルのバッチからテキストを検出します。 |
テキスト認識機能で検出されるサポート対象の言語について詳しくは、こちらをご覧ください。
光学式文字認識機能
OCR API では、画像からテキストを検出、抽出できます。次の 2 つのアノテーション機能は、光学式文字認識をサポートしています。
TEXT_DETECTION
は、任意の画像からテキストを検出、抽出します。たとえば、写真に道路名や交通標識が写っていれば、OCR サービスは、抽出された文字列、個々の単語、それらの境界ボックスを含む JSON ファイルを返します。図 1: OCR API が単語とその境界ボックスを検出した道路標識の写真。
DOCUMENT_TEXT_DETECTION
も画像からテキストを抽出しますが、サービスは高密度のテキストやドキュメントに応じてレスポンスを最適化します。たとえば、入力されたテキストのスキャン画像には、複数の段落と見出しが含まれている場合があります。OCR サービスは、ページ、ブロック、段落、単語、改行の情報を含む JSON ファイルを返します。図 2. OCR API が単語、ページ、段落などの情報を検出した、入力されたテキストのスキャン画像。
手書きテキスト
図 3 は手書きテキストの画像です。OCR API は、これらの画像からテキストを検出して抽出します。手書き入力認識をサポートする手書きスクリプトの一覧については、手書きスクリプトをご覧ください。
図 3. OCR API がテキストを検出した手書き文字の画像。
光学式文字認識の制限
BatchAnnotateImages
API メソッドと BatchAnnotateFiles
API メソッドは、バッチ呼び出しごとに 1 つのリクエストのみをサポートします。
次の表に、Distributed Cloud の OCR サービスの現在の上限を示します。
OCR のファイル上限 | 値 |
---|---|
最大ページ数 | 5 |
最大ファイルサイズ | 20 MB |
最大画像サイズ | 2,000 万ピクセル(長さ x 幅) |
OCR API に送信されたファイルが最大ページ数または最大ファイル サイズを超えている場合、エラーが返されます。最大画像サイズを超えるファイルが送信された場合は、2,000 万ピクセルに縮小されます。
OCR でサポートされているファイル形式
OCR 事前トレーニング済み API は、次のファイル形式のテキストを検出して文字起こしします。
- TIFF
- JPG
- PNG
ファイルは Distributed Cloud 環境にローカルに保存する必要があります。Cloud Storage でホストされているファイルや、一般公開されているファイルにアクセスしてテキスト検出を行うことはできません。