Informazioni sulle funzionalità di riconoscimento dei caratteri

Il riconoscimento ottico dei caratteri (OCR) è una delle tre API preaddestrate di Vertex AI su Google Distributed Cloud (GDC) air-gapped. Il servizio OCR rileva il testo in vari tipi di file, come immagini, file di documenti e testo scritto a mano.

OCR offre i seguenti metodi disponibili in Distributed Cloud per riconoscere il testo:

Metodo Descrizione
BatchAnnotateImages Rileva il testo da un batch di immagini JPEG o PNG fornite in una richiesta in linea.
BatchAnnotateFiles Rileva il testo da un batch di file PDF o TIFF forniti in una richiesta inline.
AsyncBatchAnnotateFiles Rileva il testo da un batch di file PDF o TIFF in un bucket di archiviazione per le richieste offline.

Scopri di più sulle lingue supportate rilevate dalla funzionalità di riconoscimento del testo.

Funzionalità di riconoscimento ottico dei caratteri

L'API OCR può rilevare ed estrarre il testo dalle immagini. Le due funzionalità di annotazione seguenti supportano il riconoscimento ottico dei caratteri:

  • TEXT_DETECTION rileva ed estrae il testo da qualsiasi immagine. Ad esempio, una fotografia potrebbe contenere un cartello stradale o un segnale stradale. Il servizio OCR restituisce un file JSON con la stringa estratta, le singole parole e i relativi rettangoli di selezione.

    Segnale stradale contenente singole parole e rettangoli di selezione per il rilevamento del testo

    Figura 1. Fotografia di un segnale stradale in cui l'API OCR rileva le parole e i relativi riquadri di delimitazione.

  • DOCUMENT_TEXT_DETECTION estrae anche il testo da un'immagine, ma il servizio ottimizza la risposta per testo e documenti densi. Ad esempio, un'immagine scansionata di un testo digitato potrebbe contenere diversi paragrafi e intestazioni. Il servizio OCR restituisce un file JSON con informazioni su pagina, blocco, paragrafo, parola e interruzione.

    Immagine scansionata di testo digitato con una proporzione elevata di annotazioni

    Figura 2. Immagine scansionata di testo digitato in cui l'API OCR rileva informazioni come parole, pagine e paragrafi.

Testo scritto a mano

La figura 3 è un'immagine di un testo scritto a mano. L'API OCR rileva ed estrae il testo da queste immagini. Per un elenco di sistemi di scrittura che supportano il riconoscimento della scrittura a mano libera, consulta Sistemi di scrittura.

Figura di scrittura a mano libera

Figura 3. Immagine di scrittura a mano libera in cui l'API OCR rileva il testo.

Limiti del riconoscimento ottico dei caratteri

I metodi API BatchAnnotateImages e BatchAnnotateFiles supportano solo una singola richiesta per chiamata batch.

La tabella seguente elenca i limiti attuali del servizio OCR in Distributed Cloud.

Limite di file per l'OCR Valore
Numero massimo di pagine Cinque
Massima dimensione del file 20 MB
Dimensione massima immagine 20 milioni di pixel (lunghezza x larghezza)

I file inviati per l'API OCR che superano il numero massimo di pagine o le dimensioni massime dei file restituiscono un errore. I file inviati che superano le dimensioni massime dell'immagine vengono ridimensionati a 20 milioni di pixel.

Tipi di file supportati per l'OCR

L'API preaddestrata OCR rileva e trascrive il testo dai seguenti tipi di file:

  • PDF
  • TIFF
  • JPG
  • PNG

Devi archiviare i file localmente nel tuo ambiente Distributed Cloud. Non puoi accedere ai file ospitati in Cloud Storage o ai file disponibili pubblicamente per il rilevamento del testo.