Elabora i documenti con l'analizzatore sintattico di moduli

L'analizzatore sintattico di moduli estrae coppie chiave-valore, tabelle, segni di selezione (come le caselle di controllo), campi generici e testo per migliorare e automatizzare l'elaborazione dei documenti.

L'analisi dei moduli può essere preferita rispetto agli altri analizzatori quando il caso d'uso prevede:

  • Gestione di moduli strutturati: è ideale per estrarre coppie chiave-valore da moduli ben definiti che assomigliano a moduli convenzionali con spazi vuoti etichettati da compilare, come name: __. Il modello preaddestrato di Form Parser offre un'elevata precisione per i campi comuni come nomi, date e indirizzi.
  • È necessaria l'estrazione flessibile delle tabelle: l'analizzatore sintattico di moduli estrae da tabelle semplici (senza celle che si estendono su righe o colonne) che sembrano tabelle. Non è necessario (né possibile) alcun addestramento. Per l'estrazione di tabelle addestrate, l'estrattore personalizzato può essere utilizzato con un campo principale contenente campi secondari di colonna (cella).
  • Necessità di efficienza: evita di creare e gestire parser di estrazione, soprattutto per attività di estrazione di grandi volumi e varie.

Funzionalità di estrazione dei dati

Le funzionalità dell'analizzatore sintattico di moduli comprendono:

  • Coppia chiave-valore: si tratta di insiemi di due elementi all'interno di un documento: un'etichetta o una chiave e i dati corrispondenti (un valore). Puoi utilizzare direttamente le coppie chiave-valore (se le chiavi sono coerenti) o creare una logica personalizzata per risolvere le chiavi variabili in informazioni strutturate coerenti.

  • Entità generiche:analizza 11 campi diversi dei documenti immediatamente. Questi includono:

    • email
    • phone
    • url
    • date_time
    • address
    • person
    • organization
    • quantity
    • price
    • id
    • page_number
  • Testo e layout:utilizza il nostro ultimo motore OCR per estrarre testo e informazioni sul layout. Sono inclusi il testo incorporato dei PDF digitali (solo v2.1) o il testo delle immagini.

  • Tabelle:rileva ed estrai le tabelle da immagini e PDF.

  • Caselle di controllo:un rilevatore di segni di selezione di alta qualità, che estrae le caselle di controllo dalle immagini e dall'output PDF come KVP, utilizzando il testo più vicino alla casella di controllo, con un valueType che indica se è compilata o meno.

Lingue e regioni

Versioni modello

Le seguenti versioni del processore sono compatibili con questa funzionalità. Per saperne di più, consulta Gestione delle versioni del processore.

Limitazioni

  • Le compressioni JPEG precedenti per TIFF non sono supportate. Tipo di incapsulamento JPEG definito dalla specifica della versione 6.0 di TIFF.

  • Il modello di casella di controllo non supporta l'analisi dei pulsanti di opzione. Alcune caselle di controllo rilevate potrebbero non avere tasti corrispondenti.

  • Il modello non analizza in modo affidabile una coppia chiave-valore con un valore non compilato, ad esempio un modulo vuoto.

  • L'analisi KVP dei documenti in alcune lingue potrebbe essere di qualità inferiore rispetto a quella delle lingue latine.

Elabora i documenti con l'analizzatore sintattico di moduli

Questa guida rapida presenta la funzionalità dell'analizzatore sintattico di moduli in Document AI. In questa guida rapida, utilizzi la console Google Cloud per configurare il Google Cloud progetto e l'autorizzazione, creare un analizzatore sintattico di moduli e inviare una richiesta affinché Document AI elabori un modulo PDF.

Scopri come:

  1. Abilitare Document AI in un progetto Google Cloud .

  2. Creare un processore dell'analizzatore sintattico di moduli che possa identificare ed estrarre testo, coppie chiave-valore, tabelle ed entità generiche da molti tipi di documenti.

  3. Utilizzare il processore per annotare un documento di esempio.


Per seguire le indicazioni dettagliate per questa attività direttamente nella Google Cloud console, fai clic su Procedura guidata:

Procedura guidata


  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI API.

    Enable the API

  8. Crea un processore dell'analizzatore sintattico di moduli

    Utilizza la console Google Cloud per creare un processore dell'analizzatore sintattico di moduli. Per ulteriori informazioni, scopri come creare e gestire i processori.

    1. Nel Google Cloud menu di navigazione della console, fai clic su Document AI e seleziona Galleria processori.

      Galleria processori

    2. Nella Galleria processori, cerca Analizzatore sintattico di moduli e seleziona Crea.

      Opzione parser di moduli nell'interfaccia utente

    3. Nella finestra laterale, inserisci un nome processore, ad esempio quickstart-form-processor.

    4. Seleziona la regione più vicina a te.

    5. Fai clic su pulsante Crea.

    Viene visualizzata la pagina Dettagli processore per il nuovo processore dell'analizzatore sintattico di moduli.

    Testa il processore

    Puoi inviare richieste di annotazione al processore dopo averlo creato.

    1. Scarica il documento di esempio

      È un file PDF contenente un modulo di ammissione medica di esempio scritto a mano. Questo documento è archiviato in un bucket Cloud Storage accessibile pubblicamente.

    2. Fai clic sul pulsante Carica documento di test e seleziona il documento appena scaricato.

    3. Ora dovresti trovarti nella pagina Analisi analizzatore sintattico di moduli. Puoi visualizzare il testo rilevato dall'OCR, le coppie chiave/valore, le tabelle e le entità generiche estratte dal documento.

      coppie chiave/valore del modulo di esempio nell'interfaccia utente entità generiche del modulo di esempio nell'interfaccia utente

    Esegui la pulizia

    Per evitare addebiti non necessari Google Cloud , utilizzaGoogle Cloud console per eliminare il processore e il progetto se non ti servono.

    Passaggi successivi