Elabora i documenti con l'analizzatore sintattico di moduli
L'analizzatore sintattico di moduli estrae coppie chiave-valore, tabelle, segni di selezione (come le caselle di controllo), campi generici e testo per migliorare e automatizzare l'elaborazione dei documenti.
L'analisi dei moduli può essere preferita rispetto agli altri analizzatori quando il caso d'uso prevede:
- Gestione di moduli strutturati: è ideale per estrarre coppie chiave-valore da
moduli ben definiti che assomigliano a moduli convenzionali con spazi vuoti etichettati da compilare, come
name: __
. Il modello preaddestrato di Form Parser offre un'elevata precisione per i campi comuni come nomi, date e indirizzi. - È necessaria l'estrazione flessibile delle tabelle: l'analizzatore sintattico di moduli estrae da tabelle semplici (senza celle che si estendono su righe o colonne) che sembrano tabelle. Non è necessario (né possibile) alcun addestramento. Per l'estrazione di tabelle addestrate, l'estrattore personalizzato può essere utilizzato con un campo principale contenente campi secondari di colonna (cella).
- Necessità di efficienza: evita di creare e gestire parser di estrazione, soprattutto per attività di estrazione di grandi volumi e varie.
Funzionalità di estrazione dei dati
Le funzionalità dell'analizzatore sintattico di moduli comprendono:
Coppia chiave-valore: si tratta di insiemi di due elementi all'interno di un documento: un'etichetta o una chiave e i dati corrispondenti (un valore). Puoi utilizzare direttamente le coppie chiave-valore (se le chiavi sono coerenti) o creare una logica personalizzata per risolvere le chiavi variabili in informazioni strutturate coerenti.
Entità generiche:analizza 11 campi diversi dei documenti immediatamente. Questi includono:
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
Testo e layout:utilizza il nostro ultimo motore OCR per estrarre testo e informazioni sul layout. Sono inclusi il testo incorporato dei PDF digitali (solo v2.1) o il testo delle immagini.
Tabelle:rileva ed estrai le tabelle da immagini e PDF.
Caselle di controllo:un rilevatore di segni di selezione di alta qualità, che estrae le caselle di controllo dalle immagini e dall'output PDF come KVP, utilizzando il testo più vicino alla casella di controllo, con un
valueType
che indica se è compilata o meno.
Lingue e regioni
- Form Parser 2.0 supporta oltre 200 lingue. Scopri di più.
- Forniamo supporto per le funzionalità in otto regioni. Scopri di più.
Versioni modello
Le seguenti versioni del processore sono compatibili con questa funzionalità. Per saperne di più, consulta Gestione delle versioni del processore.
Limitazioni
Le compressioni JPEG precedenti per TIFF non sono supportate. Tipo di incapsulamento JPEG definito dalla specifica della versione 6.0 di TIFF.
Il modello di casella di controllo non supporta l'analisi dei pulsanti di opzione. Alcune caselle di controllo rilevate potrebbero non avere tasti corrispondenti.
Il modello non analizza in modo affidabile una coppia chiave-valore con un valore non compilato, ad esempio un modulo vuoto.
L'analisi KVP dei documenti in alcune lingue potrebbe essere di qualità inferiore rispetto a quella delle lingue latine.
Elabora i documenti con l'analizzatore sintattico di moduli
Questa guida rapida presenta la funzionalità dell'analizzatore sintattico di moduli in Document AI. In questa guida rapida, utilizzi la console Google Cloud per configurare il Google Cloud progetto e l'autorizzazione, creare un analizzatore sintattico di moduli e inviare una richiesta affinché Document AI elabori un modulo PDF.
Scopri come:
Abilitare Document AI in un progetto Google Cloud .
Creare un processore dell'analizzatore sintattico di moduli che possa identificare ed estrarre testo, coppie chiave-valore, tabelle ed entità generiche da molti tipi di documenti.
Utilizzare il processore per annotare un documento di esempio.
Per seguire le indicazioni dettagliate per questa attività direttamente nella Google Cloud console, fai clic su Procedura guidata:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
Nel Google Cloud menu di navigazione della console, fai clic su Document AI e seleziona Galleria processori.
Nella Galleria processori,
cerca Analizzatore sintattico di moduli e seleziona Crea.Nella finestra laterale, inserisci un nome processore, ad esempio
quickstart-form-processor
.Seleziona la regione più vicina a te.
Fai clic su pulsante Crea.
Scarica il documento di esempio
È un file PDF contenente un modulo di ammissione medica di esempio scritto a mano. Questo documento è archiviato in un bucket Cloud Storage accessibile pubblicamente.
Fai clic sul pulsante
Carica documento di test e seleziona il documento appena scaricato.Ora dovresti trovarti nella pagina Analisi analizzatore sintattico di moduli. Puoi visualizzare il testo rilevato dall'OCR, le coppie chiave/valore, le tabelle e le entità generiche estratte dal documento.
- Esamina l'elenco dei processori.
Crea un processore dell'analizzatore sintattico di moduli
Utilizza la console Google Cloud per creare un processore dell'analizzatore sintattico di moduli. Per ulteriori informazioni, scopri come creare e gestire i processori.
Viene visualizzata la pagina Dettagli processore per il nuovo processore dell'analizzatore sintattico di moduli.
Testa il processore
Puoi inviare richieste di annotazione al processore dopo averlo creato.
Esegui la pulizia
Per evitare addebiti non necessari Google Cloud , utilizzaGoogle Cloud console per eliminare il processore e il progetto se non ti servono.