Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Elenco dei processori
Questa pagina contiene informazioni dettagliate su tutti i processori offerti da Document AI. Puoi visualizzare un elenco di tutti i processori per tipo di soluzione.
Enterprise Document OCR (riconoscimento ottico dei caratteri)
Descrizione
Identifica ed estrai il testo in diversi tipi di documenti.
Questo processore ti consente di identificare ed estrarre testo, incluso il testo scritto a mano, dai documenti in più di 200 lingue. Il processore utilizza anche il machine learning per eseguire una valutazione della qualità di un documento in base alla leggibilità dei suoi contenuti.
Versione del modello bloccata v1.0: file, configurazioni e binari del modello di un'istantanea della versione bloccati in un'immagine container per un massimo di 18 mesi.
pretrained-ocr-v2.0-2023-06-02
Stabile
Modello pronto per la produzione specializzato per i casi d'uso dei documenti. Include l'accesso a tutti i componenti aggiuntivi OCR.
pretrained-ocr-v2.1-2024-08-07
Stabile
Le principali aree di miglioramento della versione 2.1 sono: migliore riconoscimento del testo stampato, rilevamento più preciso delle caselle di controllo e ordine di lettura più accurato.
pretrained-ocr-v2.1.1-2025-01-31
Candidato per la release
La versione 2.1.1 è simile alla versione 2.1 ed è disponibile in tutte le regioni, ad eccezione di: US, EU e asia-southeast1.
Consulta Set di dati di esempio
per set di dati etichettati e non etichettati di esempio da utilizzare per l'addestramento.
Estrattore personalizzato
Descrizione
Estrai i campi dai documenti utilizzando l'AI generativa o modelli personalizzati; perfeziona i modelli per estrarre con precisione i dati dai tuoi documenti.
È supportata ufficialmente solo la lingua inglese.
La disponibilità per regione è in US, EU, northamerica-northeast1 e asia-southeast1.
Lingue supportate
Elenco completo delle lingue
Nome della lingua
Tag BCP 47
Script
Scrittura a mano libera supportata
Afrikaans
af
Latn
Arabo
ar
Arab
Azero
az
Latn
Azero (cirillico)
az-Cyrl
Cyrl
Bielorusso
be
Cyrl
Bulgaro
bg
Cyrl
Bosniaco
bs
Latn
Catalano
ca
Latn
Cebuano
ceb
Latn
Ceco
cs
Latn
Gallese
cy
Latn
Danese
da
Latn
Tedesco
de
Latn
Greco
el
Grek
Inglese
en
Latn
Esperanto
eo
Latn
Spagnolo
es
Latn
Estone
et
Latn
Basco
eu
Latn
Persiano
fa
Arab
Finlandese
fi
Latn
Filippino
fil
Latn
Francese
fr
Latn
Irlandese
ga
Latn
Galiziano
gl
Latn
Hindi
hi
Deva
Croato
hr
Latn
Creolo haitiano
ht
Latn
Ungherese
hu
Latn
Indonesiano
id
Latn
Islandese
is
Latn
Italiano
it
Latn
Ebraico
iw
Hebr
Giapponese
ja
Jpan
Giavanese
jv
Latn
Kazako
kk
Cyrl
Coreano
ko
Kore
Kirgizo
ky
Cyrl
Latino
la
Latn
Lituano
lt
Latn
Lettone
lv
Latn
Macedone
mk
Cyrl
Mongolo
mn
Cyrl
Marathi
mr
Deva
Malese
ms
Latn
Maltese
mt
Latn
Nepalese
ne
Deva
Olandese
nl
Latn
Norvegese
no
Latn
Polacco
pl
Latn
Pashto
ps
Arab
Portoghese (Portogallo e Brasile)
pt
Latn
Rumeno
ro
Latn
Russo
ru
Cyrl
Russo (ortografia petrina)
ru-PETR1708
Cyrl
Sanscrito
sa
Deva
Slovacco
sk
Latn
Sloveno
sl
Latn
Albanese
sq
Latn
Serbo
sr
Cyrl
Svedese
sv
Latn
Swahili
sw
Latn
Tagalog
tl
Latn
Turco
tr
Latn
Ucraino
uk
Cyrl
Urdu
ur
Arab
Uzbeco
uz
Latn
Uzbeko (cirillico)
uz-Cyrl
Cyrl
Vietnamita
vi
Latn
Yiddish
yi
Hebr
Cinese semplificato
zh-Hans
Hani
Cinese tradizionale
zh-Hant
Hani
Zulu
zu
Latn
Versioni del processore
ID versione
Canale di rilascio
Descrizione
pretrained-foundation-model-v1.4-2025-02-05
Stabile
Candidato pronto per la produzione basato sul modello LLM Gemini 2.0 Flash. Include anche funzionalità OCR avanzate come il rilevamento delle caselle di controllo.
pretrained-foundation-model-v1.5-2025-05-05
Stabile
Candidato pronto per la produzione basato sul modello LLM Gemini 2.5 Flash. Consigliato per chi vuole sperimentare modelli più recenti.
Estrai coppie chiave-valore generali (entità e casella di controllo), tabelle ed entità generiche dai documenti, oltre al testo OCR.
Questo processore applica tecnologie di machine learning avanzate per estrarre coppie chiave-valore, caselle di controllo e tabelle da documenti in più di 200 lingue. Questo processore sfrutta anche modelli di deep learning per estrarre 11 entità generiche comuni in vari tipi di documenti.
Category
Estrarre
Funzioni
OCR, analisi sintattica dei moduli, estrazione di entità
Versione precedente. Per una qualità ottimale e un set completo di funzionalità, utilizza il parser di moduli v2.0.
pretrained-form-parser-v2.0-2022-11-10
Stabile
Mostra campi
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
Versione consigliata. Supporta le entità generiche e include modelli di tabelle, coppie chiave-valore e caselle di controllo aggiornati, nonché più di 200 lingue.
pretrained-form-parser-v2.1-2023-06-26
Candidato per la release
Nessuno
Versione di anteprima pubblica. Stesso modello della v2.0 con l'estrazione nativa del testo dai file PDF digitali abilitata.
Estrae elementi dei contenuti dei documenti (testo, tabelle ed elenchi) e crea blocchi sensibili al contesto.
Il parser del layout estrae elementi dei contenuti dei documenti come testo, tabelle ed elenchi e crea blocchi sensibili al contesto che facilitano il recupero di informazioni nell'AI generativa e nelle applicazioni di rilevamento.
Se una pagina di un file di input di più pagine è del tipo di documento corretto e di una delle versioni supportate, il processore esegue l'estrazione delle entità sul primo documento supportato. Se il processore non trova documenti applicabili nel file di input, restituisce un messaggio di errore.
Lingue supportate
Nome della lingua
Tag BCP 47
Script
Scrittura a mano libera supportata
Inglese
en
Latn
Versioni del processore
ID versione
Canale di rilascio
Descrizione
pretrained-bankstatement-v1.0-2021-08-08
Stabile
pretrained-bankstatement-v1.1-2021-08-13
Stabile
pretrained-bankstatement-v2.0-2021-12-10
Stabile
pretrained-bankstatement-v3.0-2022-05-16
Stabile
Questa versione presuppone che il file di input contenga un unico estratto conto bancario. A differenza della versione predefinita, questa versione non controlla la presenza di estratti conto bancari nel file di input e non restituisce un errore se non vengono trovati estratti conto bancari.
Se una pagina di un file di input di più pagine è del tipo di documento corretto e di una delle versioni supportate, il processore esegue l'estrazione delle entità sul primo documento supportato. Se il processore non trova documenti applicabili nel file di input, restituisce un messaggio di errore.
Lingue supportate
Nome della lingua
Tag BCP 47
Script
Scrittura a mano libera supportata
Inglese
en
Latn
Moduli/versioni supportati
2020 (versioni standard e personalizzate)
2019 (versioni standard e personalizzate)
2018 (versioni standard e personalizzate)
Versioni del processore
ID versione
Canale di rilascio
Campi aggiuntivi rilevati
Descrizione
pretrained-w2-v1.0-2020-10-01
Stabile
Nessuno
pretrained-w2-v1.1-2022-01-27
Stabile
Nessuno
pretrained-w2-v1.2-2022-01-28
Stabile
Mostra campi
AllocatedTips
ControlNumber
DependentCareBenefits
EIN
EmployeeAddress
EmployeeName
EmployerNameAndAddress
EmployerStateIdNumber_Line1
FederalIncomeTaxWithheld
FormYear
LocalIncomeTax_Line1
LocalityName_Line1
LocalWagesTipsEtc_Line1
MedicareTaxWithheld
MedicareWagesAndTips
NonqualifiedPlans
SocialSecurityTaxWithheld
SocialSecurityTips
SocialSecurityWages
SSN
State_Line1
StateIncomeTax_Line1
StateWagesTipsEtc_Line1
WagesTipsOtherCompensation
Miglioramenti della qualità e supporto di nuovi campi; non include lo splitter.
Miglioramenti della qualità e supporto per i campi della casella 12 e previsioni granulari di EmployeeName, EmployeeAddress e EmployerNameAndAddress, che non fanno più parte dell'output e sono sostituiti da campi aggiuntivi.
Prevedi la validità dei documenti di identità utilizzando più indicatori.
Il processore di verifica dei documenti di identità è progettato per aiutare a prevedere la validità dei documenti di identità con quattro indicatori diversi.
Attualmente, il processore restituisce informazioni dai seguenti indicatori:
Rilevamento di fraud_signals_is_identity_document: prevede se un'immagine contiene un documento di identità riconosciuto.
Rilevamento di fraud_signals_suspicious_words: prevede se sono presenti parole non tipiche negli ID.
fraud_signals_image_manipulation: prevede se l'immagine è stata alterata o manomessa con uno strumento di modifica delle immagini.
Rilevamento fraud_signals_online_duplicate: prevede se l'immagine può essere trovata online (solo negli Stati Uniti).
La funzionalità di rilevamento dei duplicati online viene attualmente elaborata nei data center degli Stati Uniti. Il supporto regionale e multiregionale non è disponibile per questa funzionalità al di fuori degli Stati Uniti.
Questo processore è supportato da algoritmi che vengono aggiornati più frequentemente rispetto al rilascio di nuove versioni del processore. Per questo motivo, il processore potrebbe restituire output diversi nel tempo anche se utilizza la stessa versione. Ad esempio, il sistema di rilevamento dei duplicati online monitora le immagini presenti sul web. Il comportamento del sistema può quindi cambiare più rapidamente di quanto possa essere monitorato nelle versioni del processore.
Consulta le note sull'IA responsabile[†] e sulla revisione umana.[‡]
Lingue supportate
Nome della lingua
Tag BCP 47
Script
Scrittura a mano libera supportata
Inglese
en
Latn
Moduli/versioni supportati
Supporto per passaporti, passaporto formato tessera e patenti di guida statunitensi.
Se il documento di input di più pagine contiene più di una busta paga valida, il processore estrae le entità solo dalla prima busta paga valida. Se nel file di input non vengono trovate buste paga, il processore restituisce un messaggio di errore.
Lingue supportate
Nome della lingua
Tag BCP 47
Script
Scrittura a mano libera supportata
Inglese
en
Latn
Versioni del processore
ID versione
Canale di rilascio
Campi aggiuntivi rilevati
Descrizione
pretrained-paystub-v1.0-2021-03-19
Stabile
Nessuno
pretrained-paystub-v1.1-2021-08-13
Stabile
Mostra campi
net_pay
net_pay_ytd
employee_account_number
Miglioramento della qualità e supporto di nuovi campi.
pretrained-paystub-v1.2-2021-12-10
Stabile
Nessuno
pretrained-paystub-v2.0-2022-05-17
Candidato per la release
Mostra campi
deduction_item
deduction_item/deduction_type
deduction_item/deduction_this_period
deduction_item/deduction_ytd
direct_deposit_item
direct_deposit_item/direct_deposit
direct_deposit_item/employee_account_number
earning_item
earning_item/earning_type
earning_item/earning_rate
earning_item/earning_hours
earning_item/earning_this_period
earning_item/earning_ytd
page_number
tax_item
tax_item/tax_type
tax_item/tax_this_period
tax_item/tax_ytd
federal_additional_tax
federal_allowance
federal_marital_status
state_additional_tax
state_allowance
state_marital_status
Questa versione presuppone che il file di input contenga una sola busta paga. A differenza della versione predefinita, questa versione non controlla la presenza di buste paga nel file di input e non restituisce un errore se non vengono trovate buste paga.
Miglioramento della qualità, supporto di nuovi campi e nuovo schema. Bonus, Commissioni, Festività, Straordinario, Retribuzione normale e Ferie ora fanno parte di earning_item/earning_this_period e le relative versioni dall'inizio dell'anno a oggi si trovano in earning_item/earning_ytd. I campi Deposito diretto e Numero di conto del dipendente ora sono nidificati in direct_deposit_item.
Un upgrade alla versione 1.3 con un modello di visione sottostante migliorato.
pretrained-expense-v1.4-2022-11-18
Candidato per la release
Mostra campi
traveler_name
reservation_id
line_item/transaction_date
ja: giapponese
it: italiano
pt: Portoghese (Portogallo e Brasile)
Miglioramenti delle prestazioni e supporto per l'addestramento incrementale. Il limite massimo di pagine (richieste online/sincrone) è stato aumentato a 15.
pretrained-expense-v1.4.2-2024-09-12
Candidato per la release
Mostra campi
traveler_name
reservation_id
line_item/transaction_date
ja: giapponese
it: italiano
pt: Portoghese (Portogallo e Brasile)
Un upgrade alla versione 1.4 con un modello di visione artificiale sottostante migliorato.
Estrai testo e valori dalle fatture, tra cui numero di fattura, nome del fornitore, importo della fattura, importo dell'IVA, data della fattura e data di scadenza.
Il parser delle fatture estrae i campi dell'intestazione e delle voci, ad esempio numero di fattura, nome del fornitore, importo della fattura, importo dell'IVA, data della fattura, data di scadenza e importi delle voci.
[*] Questo processore è disponibile solo per i clienti con accesso limitato.
Per richiedere l'accesso API, compila e invia il modulo di richiesta di accesso ai processori Document AI.
Nel modulo devi inserire informazioni su di te, sulla tua azienda e sul tuo caso d'uso.
Tieni presente che per effettuare l'accesso è necessario un ID progetto Google Cloud.
Per creare un nuovo progetto Google Cloud o identificare l'ID del progetto esistente, consulta le seguenti istruzioni.
Una volta inviato il modulo, il team di Document AI esaminerà la tua richiesta per verificare che soddisfi i criteri per l'accesso.
In caso di approvazione, riceverai un'email con le istruzioni su come accedere e utilizzare questa funzionalità.
[†]
La verifica dei documenti di identità consente di estrarre e valutare le informazioni dai documenti di identità che contribuiscono a determinare se l'immagine di input rappresenta un documento di identità autentico.
In Google Cloud, diamo la priorità ad aiutare i clienti a sviluppare e implementare in modo sicuro soluzioni di AI e la verifica dell'identità è stata sviluppata in conformità ai principi dell'AI di Google.
In base ai principi di AI di Google e alla progettazione attuale dei prodotti, consigliamo vivamente di usare cautela e di valutare attentamente i potenziali vantaggi e rischi dell'utilizzo della verifica dei documenti di identità per quanto segue:
Processo decisionale senza human-in-the-loop per le previsioni che possono influire sui diritti umani.
In domini sensibili, inclusi, a titolo esemplificativo, occupazione, accesso a servizi pubblici, sanità e contesti critici per la sicurezza.
[‡] Utilizza sempre la verifica dell'identità nell'ambito del processo e del flusso di lavoro più ampio di rilevamento dell'identità.
È importante che nel tuo flusso di lavoro sia presente un revisore umano per verificare se gli indicatori previsti sono accurati. Il processore di verifica dell'identità non ha lo scopo di sostituire la revisione umana dei documenti di identità in un flusso di lavoro, ma piuttosto di assistere i revisori umani nella convalida dei documenti di identità. Il processore di verifica dell'identità non deve essere utilizzato come strumento decisionale automatizzato per determinare se un documento di identità è valido. Con la revisione umana, i clienti possono ottenere una maggiore precisione nell'elaborazione dei documenti e aiutare le aziende a valutare le previsioni utilizzando strumenti appositamente progettati per consentire tali revisioni.
Assicurati di esaminare i regolamenti della regione in cui implementi questa tecnologia e di consultare le linee guida esistenti del settore per conoscere le norme e i problemi comuni relativi all'equità. Scopri di più sull'equità nel machine learning, inclusi i modi per mitigare i bias nei set di dati di addestramento, valutare i modelli personalizzati per le disparità di prestazioni e altre considerazioni da tenere a mente quando utilizzi il tuo modello personalizzato.
Invitiamo i clienti a tenere presente l'equità, l'interpretabilità e le best practice in materia di privacy e sicurezza durante l'implementazione della verifica dell'identità. Per scoprire di più su come implementare l'AI responsabile, leggi i consigli di Google sulle pratiche di AI responsabile.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-07-14 UTC."],[[["Document AI offers various processors for digitizing, extracting, classifying, and summarizing document content, including Enterprise Document OCR for text recognition in over 200 languages."],["Custom Extractor uses generative AI or custom models to extract fields from documents, supporting multiple languages and specific data types, such as `dateTime`, `currency`, `number`, and has different versions with varying functionalities and lifespans."],["Form Parser extracts key-value pairs, checkboxes, tables, and entities from documents in over 200 languages, utilizing machine learning and deep learning techniques, and is capable of extracting fields such as `email`, `phone`, `url`, `date_time`, and more."],["Layout Parser, available for files such as PDF, HTML and DOCX, extracts content elements like text, tables and lists, supports a wide array of languages, and allows for processing up to 15 pages online or 500 in batch."],["Specialized pretrained processors like Bank Statement Parser, W2 Parser, US Passport Parser, Utility Parser, Identity Document Proofing Parser, Pay Slip Parser, US Driver License Parser, Expense Parser, and Invoice Parser are available for extracting specific information from different document types."]]],[]]