Il riconoscimento ottico dei caratteri (OCR) è una delle tre API preaddestrate di Vertex AI su Google Distributed Cloud (GDC) air-gapped. Il servizio OCR rileva il testo in vari tipi di file, come immagini, file di documenti e testo scritto a mano.
OCR offre i seguenti metodi disponibili in Distributed Cloud per riconoscere il testo:
Metodo | Descrizione |
---|---|
BatchAnnotateImages |
Rileva il testo da un batch di immagini JPEG o PNG fornite in una richiesta in linea. |
BatchAnnotateFiles |
Rileva il testo da un batch di file PDF o TIFF forniti in una richiesta inline. |
AsyncBatchAnnotateFiles |
Rileva il testo da un batch di file PDF o TIFF in un bucket di archiviazione per le richieste offline. |
Scopri di più sulle lingue supportate rilevate dalla funzionalità di riconoscimento del testo.
Funzionalità di riconoscimento ottico dei caratteri
L'API OCR può rilevare ed estrarre il testo dalle immagini. Le due funzionalità di annotazione seguenti supportano il riconoscimento ottico dei caratteri:
TEXT_DETECTION
rileva ed estrae il testo da qualsiasi immagine. Ad esempio, una fotografia potrebbe contenere un cartello stradale o un segnale stradale. Il servizio OCR restituisce un file JSON con la stringa estratta, le singole parole e i relativi rettangoli di selezione.Figura 1. Fotografia di un segnale stradale in cui l'API OCR rileva le parole e i relativi riquadri di delimitazione.
DOCUMENT_TEXT_DETECTION
estrae anche il testo da un'immagine, ma il servizio ottimizza la risposta per testo e documenti densi. Ad esempio, un'immagine scansionata di un testo digitato potrebbe contenere diversi paragrafi e intestazioni. Il servizio OCR restituisce un file JSON con informazioni su pagina, blocco, paragrafo, parola e interruzione.Figura 2. Immagine scansionata di testo digitato in cui l'API OCR rileva informazioni come parole, pagine e paragrafi.
Testo scritto a mano
La figura 3 è un'immagine di un testo scritto a mano. L'API OCR rileva ed estrae il testo da queste immagini. Per un elenco di sistemi di scrittura che supportano il riconoscimento della scrittura a mano libera, consulta Sistemi di scrittura.
Figura 3. Immagine di scrittura a mano libera in cui l'API OCR rileva il testo.
Limiti del riconoscimento ottico dei caratteri
I metodi API BatchAnnotateImages
e BatchAnnotateFiles
supportano solo una
singola richiesta per chiamata batch.
La tabella seguente elenca i limiti attuali del servizio OCR in Distributed Cloud.
Limite di file per l'OCR | Valore |
---|---|
Numero massimo di pagine | Cinque |
Massima dimensione del file | 20 MB |
Dimensione massima immagine | 20 milioni di pixel (lunghezza x larghezza) |
I file inviati per l'API OCR che superano il numero massimo di pagine o le dimensioni massime dei file restituiscono un errore. I file inviati che superano le dimensioni massime dell'immagine vengono ridimensionati a 20 milioni di pixel.
Tipi di file supportati per l'OCR
L'API preaddestrata OCR rileva e trascrive il testo dai seguenti tipi di file:
- TIFF
- JPG
- PNG
Devi archiviare i file localmente nel tuo ambiente Distributed Cloud. Non puoi accedere ai file ospitati in Cloud Storage o ai file disponibili pubblicamente per il rilevamento del testo.