光學字元辨識 (OCR) 是 Google Distributed Cloud (GDC) 氣隙環境中,三種 Vertex AI 預先訓練 API 之一。OCR 服務可偵測各種檔案類型中的文字,例如圖片、文件檔案和手寫文字。
OCR 提供下列方法,可在 Distributed Cloud 中辨識文字:
方法 | 說明 |
---|---|
BatchAnnotateImages |
從內嵌要求提供的一批 JPEG 或 PNG 圖片中偵測文字。 |
BatchAnnotateFiles |
偵測內嵌要求中提供的批次 PDF 或 TIFF 檔案文字。 |
AsyncBatchAnnotateFiles |
偵測儲存空間 bucket 中一批 PDF 或 TIFF 檔案的文字,以供離線要求使用。 |
進一步瞭解文字辨識功能支援的語言。
光學字元辨識功能
OCR API 可偵測及擷取圖片中的文字。下列兩種註解功能支援光學字元辨識:
TEXT_DETECTION
可偵測並擷取任何圖片中的文字。舉例來說,相片可能含有街道或交通標誌。OCR 服務會傳回 JSON 檔案,其中包含擷取的字串、個別字詞及其周框。圖 1. 路標照片,OCR API 會偵測文字及其定界框。
DOCUMENT_TEXT_DETECTION
也會從圖片中擷取文字,但這項服務會針對密集文字和文件最佳化回覆內容。舉例來說,掃描的文字圖片可能包含多個段落和標題。OCR 服務會傳回 JSON 檔案,其中包含頁面、區塊、段落、字詞和換行資訊。圖 2:掃描的圖片含有打字文字,OCR API 會偵測字詞、頁面和段落等資訊。
手寫文字
圖 3:手寫文字圖片。OCR API 會偵測並擷取這些圖片中的文字。如需支援手寫辨識功能的手寫文字清單,請參閱「手寫文字」。
圖 3:OCR API 偵測到文字的手寫圖片。
光學字元辨識限制
BatchAnnotateImages
和 BatchAnnotateFiles
API 方法在每個批次呼叫中僅支援單一要求。
下表列出 Distributed Cloud 中 OCR 服務的目前限制。
OCR 檔案限制 | 值 |
---|---|
頁數上限 | 五 |
檔案大小上限 | 20 MB |
圖片大小上限 | 2,000 萬像素 (長度 x 寬度) |
如果提交的 OCR API 檔案超過頁數上限或檔案大小上限,系統會傳回錯誤。如果提交的檔案超過圖片大小上限,系統會縮小至 2,000 萬像素。
支援 OCR 的檔案類型
OCR 預先訓練 API 可偵測並轉錄下列檔案類型中的文字:
- TIFF
- JPG
- PNG
您必須在本機的 Distributed Cloud 環境中儲存檔案。您無法存取 Cloud Storage 中託管的檔案,或公開可用的檔案以進行文字偵測。