Addestra e valuta
Document AI ti consente di addestrare nuove versioni del processore utilizzando i tuoi dati di addestramento e valutare la qualità della versione del processore rispetto ai tuoi dati di test.
Questa opzione è utile quando vuoi utilizzare un processore personalizzato. Esiste un processore Document AI per il tuo tipo di documento, ma puoi eseguire l'upgrade di una versione personalizzata per soddisfare le tue esigenze.
L'addestramento e la valutazione vengono in genere eseguiti in tandem per iterare verso una versione del processore di alta qualità e utilizzabile.
Document AI
Document AI ti consente di creare un estrattore personalizzato, che estrae entità da documenti di un particolare tipo, ad esempio gli elementi di un menu o il nome e i dati di contatto da un curriculum.
A differenza di altri processori, i processori personalizzati non vengono forniti con versioni del processore preaddestrate e pertanto non possono elaborare documenti finché non viene addestrata una versione da zero.
Per iniziare a utilizzare Document AI, consulta Crea il tuo processore personalizzato.
Ottimizzare l'addestramento di un processore
Puoi ottimizzare l'addestramento di nuove versioni del processore per migliorare l'accuratezza dei tuoi dati, estrarre campi personalizzati aggiuntivi dai tuoi documenti e aggiungere il supporto per nuove lingue.
L'addestramento up funziona applicando il transfer learning alle versioni preaddestrate del processore Google e in genere richiede meno dati rispetto all'addestramento da zero.
Per iniziare, vedi Ottimizzare l'addestramento di un processore preaddestrato.
Processori supportati
Non tutti i processori specializzati supportano l'upscaling. Questi sono i processori che supportano l'upscaling.
Considerazioni e consigli sui dati
La qualità e la quantità dei dati determinano la qualità dell'addestramento, dell'aggiornamento e della valutazione.
Ottenere un insieme di documenti rappresentativi e reali e fornire un numero sufficiente di etichette di alta qualità è spesso la parte più lunga e che richiede più risorse del processo.
Numero di documenti
Se i tuoi documenti hanno tutti un formato simile (ad esempio, un modulo fisso con una variazione molto bassa), sono necessari meno documenti per ottenere l'accuratezza. Maggiore è la variazione, più documenti sono necessari.
I seguenti grafici forniscono una stima approssimativa del numero di documenti necessari affinché un estrattore di documenti personalizzato raggiunga un determinato punteggio di qualità.
Variazione minima | Variazione elevata |
---|---|
![]() |
![]() |
Etichettatura dati
Valuta le opzioni per etichettare i documenti e assicurati di disporre di risorse sufficienti per annotare i documenti nel tuo set di dati.
Addestramento dei modelli
I processori di estrazione personalizzati possono utilizzare diversi tipi di modelli a seconda del caso d'uso specifico e dei dati di addestramento disponibili.
- Modello personalizzato: modello che utilizza dati di addestramento etichettati.
- Basati su modelli: documenti con un layout fisso.
- Basato su modello: documenti con alcune variazioni di layout.
- Modello di AI generativa: basato su modelli di base preaddestrati che richiedono un addestramento aggiuntivo minimo.
La seguente tabella illustra quali casi d'uso corrispondono a ciascun tipo di modello.
Modello personalizzato | Generative AI | ||
---|---|---|---|
Basato su modelli | Basato su modelli | ||
Variazione del layout | Nessuno | Da basso a medio | Alta |
Quantità di testo in formato libero (ad esempio, paragrafi in un contratto) | Bassa | Bassa | Alta |
Quantità di dati di addestramento richiesti | Bassa | Alta | Bassa |
Precisione con dati di addestramento limitati | Maggiore | Meno | Maggiore |
Scopri come ottimizzare un processore con le descrizioni delle proprietà.
Quando utilizzare un altro processore
Ecco alcuni casi in cui potresti prendere in considerazione opzioni diverse da Document AI Workbench o adattare il tuo flusso di lavoro.
- Alcuni formati di input basati su testo (.txt, .html, .docx, .md e così via) non sono supportati da Document AI Workbench. Valuta altre offerte di elaborazione del linguaggio predefinite o personalizzate in Google Cloud, come l'API Cloud Natural Language.
- Lo schema dell'estrattore personalizzato di documenti supporta fino a 150 etichette di entità. Se la tua logica di business richiede più di 150 entità nella definizione dello schema, valuta la possibilità di addestrare più processori, ognuno dei quali ha come target un sottoinsieme di entità.
Come addestrare un processore
Supponendo che tu abbia già creato un processore che supporta l'addestramento o l'uptraining e etichettato il set di dati, puoi addestrare una nuova versione del processore da zero. In alternativa, puoi eseguire l'uptraining di una nuova versione del processore in base a una esistente.
Addestra la versione del processore
UI web
Nella console Google Cloud , vai alla scheda Addestra del tuo processore.
Fai clic su Modifica schema per aprire la pagina Gestisci etichette. Verifica le etichette del processore.
Le etichette attivate al momento dell'addestramento determinano le entità che la nuova versione del processore estrae. Se un'etichetta è inattiva nello schema, la versione del processore non la estrae, anche se i documenti sono etichettati.
Nella scheda Addestra, fai clic su Visualizza statistiche etichette e verifica il set di test e addestramento. I documenti etichettati automaticamente, senza etichetta o non assegnati vengono esclusi dall'addestramento e dalla valutazione.
Fai clic su Addestra nuova versione.
Il nome della versione definisce il campo
name
diprocessorVersion
.Fai clic su Inizia addestramento e attendi che la nuova versione del processore venga addestrata e valutata.
Puoi monitorare l'avanzamento dell'addestramento nella scheda Gestisci versioni:
Fai clic sulla scheda Valuta e verifica per vedere il rendimento della nuova versione del processore nel set di test. Per saperne di più, vedi Valuta la versione del processore.
Python
Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Document AI Python.
Per autenticarti in Document AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Esegui il deployment e utilizza la versione del processore
Puoi eseguire il deployment e gestire le versioni del processore come qualsiasi altra versione del processore. Per saperne di più, consulta Gestione delle versioni del processore.
Una volta eseguito il deployment, puoi inviare una richiesta di elaborazione al processore personalizzato.
Disabilitare o eliminare un processore
Se non vuoi più utilizzare un processore, puoi disattivarlo o eliminarlo. Se disattivi un processore, puoi riattivarlo. Se elimini un processore, non puoi recuperarlo.
Nel riquadro Document AI a sinistra, fai clic su I miei processori.
Fai clic sui tre puntini verticali a destra del nome del processore. Fai clic su Disattiva processore o Elimina processore.
Per saperne di più, consulta Gestione delle versioni del processore.
Crittografia dei dati di addestramento
I dati di addestramento di Document AI vengono salvati in Cloud Storage e possono essere criptati con chiavi di crittografia gestite dal cliente se necessario.
Eliminazione dei dati di addestramento
Una volta completato un job di addestramento di Document AI, tutti i dati di addestramento salvati in Cloud Storage scadono dopo un periodo di conservazione di due giorni. Le successive attività di eliminazione dei dati rispettano la procedura descritta in Eliminazione dei dati su Google Cloud.
Prezzi
L'addestramento e l'aggiornamento non prevedono costi. Paghi l'hosting e la previsione. Per saperne di più, consulta Prezzi di Document AI.