Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Prozessorliste
Auf dieser Seite finden Sie detaillierte Informationen zu allen von Document AI angebotenen Prozessoren. Sie können eine Liste aller Auftragsverarbeiter nach Lösungstyp aufrufen.
Erkennt und extrahiert Text in verschiedenen Arten von Dokumenten.
Mit diesem Prozessor können Sie Text, einschließlich handgeschriebenen Text, in Dokumenten in über 200 Sprachen erkennen und extrahieren. Der Prozessor verwendet auch maschinelles Lernen, um die Qualität eines Dokuments anhand der Lesbarkeit seiner Inhalte zu bewerten.
Eingefrorene Modellversion 1.0: Modelldateien, Konfigurationen und Binärdateien einer Versionsmomentaufnahme, die bis zu 18 Monate lang in einem Container-Image eingefroren sind.
pretrained-ocr-v2.0-2023-06-02
Stabil
Produktionsreifes Modell, das auf Dokumentanwendungsfälle spezialisiert ist. Beinhaltet den Zugriff auf alle OCR-Add-ons.
pretrained-ocr-v2.1-2024-08-07
Stabil
Die wichtigsten Verbesserungen in Version 2.1 sind: bessere Erkennung von gedrucktem Text, genauere Erkennung von Kästchen und eine präzisere Lesereihenfolge.
pretrained-ocr-v2.1.1-2025-01-31
Releasekandidat
v2.1.1 ähnelt V2.1 und ist in allen Regionen verfügbar, mit Ausnahme von US, EU und asia-southeast1.
Beispiel-Datasets mit Beispiel-Datasets mit und ohne Labels, die Sie zum Trainieren verwenden können.
Benutzerdefinierter Extrahierer
Beschreibung
Extrahieren Sie Felder aus Dokumenten mit generativer KI oder benutzerdefinierten Modellen und optimieren Sie Modelle, um Daten aus Ihren Dokumenten genau zu extrahieren.
Zusätzlich zu OCR-Text können Sie allgemeine Schlüssel/Wert-Paare (Entität und Kästchen), Tabellen und allgemeine Entitäten aus Dokumenten extrahieren.
Dieser Prozessor nutzt fortschrittliche Technologien für maschinelles Lernen, um Schlüssel/Wert-Paare, Kästchen und Tabellen aus Dokumenten in mehr als 200 Sprachen zu extrahieren. Dieser Prozessor nutzt auch Deep-Learning-Modelle, um 11 generische Entitäten zu extrahieren, die in verschiedenen Dokumenttypen häufig vorkommen.
Legacy-Version Für optimale Qualität und den vollen Funktionsumfang sollten Sie den Form Parser v2.0 verwenden.
pretrained-form-parser-v2.0-2022-11-10
Stabil
Felder einblenden
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
Empfohlene Version. Unterstützt generische Einheiten und umfasst ein aktualisiertes Tabellen-, KVP- und Kontrollkästchenmodell sowie mehr als 200 Sprachen.
pretrained-form-parser-v2.1-2023-06-26
Releasekandidat
Keine
Version der öffentlichen Vorschau. Dasselbe Modell wie Version 2.0, aber mit aktivierter nativer Textextraktion aus digitalen PDF-Dateien.
Extrahiert Dokumentinhaltselemente (Text, Tabellen und Listen) und erstellt kontextsensitive Blöcke.
Der Layoutparser extrahiert Dokumentinhaltselemente wie Text, Tabellen und Listen und erstellt kontextsensitive Blöcke, die das Abrufen von Informationen in Anwendungen für generative KI und Discovery erleichtern.
Wenn eine Seite einer mehrseitigen Eingabedatei dem richtigen Dokumenttyp und einer der unterstützten Versionen entspricht, führt der Prozessor die Extraktion von Entitäten für das erste unterstützte Dokument durch. Wenn der Prozessor in der Eingabedatei keine anwendbaren Dokumente findet, gibt er eine Fehlermeldung zurück.
Unterstützte Sprachen
Sprache
BCP 47-Tag
Skript
Handschrift wird unterstützt
Englisch
en
Latn
Prozessorversionen
Versions-ID
Version
Beschreibung
pretrained-bankstatement-v1.0-2021-08-08
Stabil
pretrained-bankstatement-v1.1-2021-08-13
Stabil
pretrained-bankstatement-v2.0-2021-12-10
Stabil
pretrained-bankstatement-v3.0-2022-05-16
Stabil
In dieser Version wird davon ausgegangen, dass die Eingabedatei einen einzelnen Kontoauszug enthält. Im Gegensatz zur Standardversion wird in dieser Version die Eingabedatei nicht auf Kontoauszüge geprüft. Es wird kein Fehler zurückgegeben, wenn keine Kontoauszüge gefunden werden.
Wenn eine Seite einer mehrseitigen Eingabedatei dem richtigen Dokumenttyp und einer der unterstützten Versionen entspricht, führt der Prozessor die Extraktion von Entitäten für das erste unterstützte Dokument durch. Wenn der Prozessor in der Eingabedatei keine anwendbaren Dokumente findet, gibt er eine Fehlermeldung zurück.
Unterstützte Sprachen
Sprache
BCP 47-Tag
Skript
Handschrift wird unterstützt
Englisch
en
Latn
Unterstützte Formulare/Versionen
2020 (Standard- und benutzerdefinierte Versionen)
2019 (Standard- und benutzerdefinierte Versionen)
2018 (Standard- und benutzerdefinierte Versionen)
Prozessorversionen
Versions-ID
Version
Zusätzliche Felder erkannt
Beschreibung
pretrained-w2-v1.0-2020-10-01
Stabil
Keine
pretrained-w2-v1.1-2022-01-27
Stabil
Keine
pretrained-w2-v1.2-2022-01-28
Stabil
Felder einblenden
AllocatedTips
ControlNumber
DependentCareBenefits
EIN
EmployeeAddress
EmployeeName
EmployerNameAndAddress
EmployerStateIdNumber_Line1
FederalIncomeTaxWithheld
FormYear
LocalIncomeTax_Line1
LocalityName_Line1
LocalWagesTipsEtc_Line1
MedicareTaxWithheld
MedicareWagesAndTips
NonqualifiedPlans
SocialSecurityTaxWithheld
SocialSecurityTips
SocialSecurityWages
SSN
State_Line1
StateIncomeTax_Line1
StateWagesTipsEtc_Line1
WagesTipsOtherCompensation
Qualitätsverbesserungen und Unterstützung neuer Felder; ohne Splitter.
Qualitätsverbesserungen und Unterstützung für Felder in Zeile 12 sowie detaillierte Vorhersagen für EmployeeName, EmployeeAddress und EmployerNameAndAddress. Diese sind nicht mehr Teil der Ausgabe und werden durch zusätzliche Felder ersetzt.
Die Gültigkeit von Ausweisdokumenten anhand mehrerer Signale vorhersagen.
Der Identity Document Proofing-Prozessor wurde entwickelt, um die Gültigkeit von Identitätsdokumenten anhand von vier verschiedenen Signalen vorherzusagen.
Der Prozessor gibt derzeit Informationen aus den folgenden Signalen zurück:
fraud_signals_is_identity_document-Erkennung: Hier wird vorhergesagt, ob ein Bild ein erkanntes Ausweisdokument enthält.
fraud_signals_suspicious_words-Erkennung: Es wird vorhergesagt, ob Wörter vorhanden sind, die für IDs nicht typisch sind.
fraud_signals_image_manipulation-Erkennung: Hier wird vorhergesagt, ob das Bild mit einem Bildbearbeitungstool verändert oder manipuliert wurde.
fraud_signals_online_duplicate-Erkennung: Es wird vorhergesagt, ob das Bild online gefunden werden kann (nur USA).
Die Funktion zur Online-Erkennung von Duplikaten wird derzeit in US-Rechenzentren verarbeitet. Außerhalb der USA ist für diese Funktion keine regionale und multiregionale Unterstützung verfügbar.
Dieser Prozessor wird von Algorithmen unterstützt, die häufiger aktualisiert werden, als neue Prozessorversionen veröffentlicht werden. Aus diesem Grund kann der Prozessor im Laufe der Zeit unterschiedliche Ausgaben zurückgeben, auch wenn dieselbe Prozessorversion verwendet wird. Das System zur Online-Erkennung von Duplikaten überwacht beispielsweise Bilder im Web. Das Verhalten des Systems kann sich dann schneller ändern, als es in Prozessorversionen nachvollzogen werden kann.
Weitere Informationen finden Sie in den Anmerkungen zu verantwortungsbewusster KI[†] und zur Überprüfung durch Menschen.[‡]
Unterstützte Sprachen
Sprache
BCP 47-Tag
Skript
Handschrift wird unterstützt
Englisch
en
Latn
Unterstützte Formulare/Versionen
Unterstützung für US-amerikanische Reisepässe, Passport Cards und Führerscheine.
Wenn das mehrseitige Eingabedokument mehrere gültige Gehaltsabrechnungen enthält, werden nur aus der ersten gültigen Gehaltsabrechnung Entitäten extrahiert. Wenn in der Eingabedatei keine Gehaltsabrechnungen gefunden werden, gibt der Prozessor eine Fehlermeldung zurück.
Unterstützte Sprachen
Sprache
BCP 47-Tag
Skript
Handschrift wird unterstützt
Englisch
en
Latn
Prozessorversionen
Versions-ID
Version
Zusätzliche Felder erkannt
Beschreibung
pretrained-paystub-v1.0-2021-03-19
Stabil
Keine
pretrained-paystub-v1.1-2021-08-13
Stabil
Felder einblenden
net_pay
net_pay_ytd
employee_account_number
Qualitätsverbesserung und Unterstützung neuer Felder
pretrained-paystub-v1.2-2021-12-10
Stabil
Keine
pretrained-paystub-v2.0-2022-05-17
Releasekandidat
Felder einblenden
deduction_item
deduction_item/deduction_type
deduction_item/deduction_this_period
deduction_item/deduction_ytd
direct_deposit_item
direct_deposit_item/direct_deposit
direct_deposit_item/employee_account_number
earning_item
earning_item/earning_type
earning_item/earning_rate
earning_item/earning_hours
earning_item/earning_this_period
earning_item/earning_ytd
page_number
tax_item
tax_item/tax_type
tax_item/tax_this_period
tax_item/tax_ytd
federal_additional_tax
federal_allowance
federal_marital_status
state_additional_tax
state_allowance
state_marital_status
Bei dieser Version wird davon ausgegangen, dass die Eingabedatei einen einzelnen Gehaltszettel enthält. Im Gegensatz zur Standardversion wird in dieser Version die Eingabedatei nicht auf Gehaltsabrechnungen geprüft. Es wird kein Fehler zurückgegeben, wenn keine Gehaltsabrechnungen gefunden werden.
Qualitätsverbesserung, Unterstützung neuer Felder und neues Schema. Bonus, Provisionen, Feiertage, Überstunden, reguläre Vergütung und Urlaub sind jetzt Teil von earning_item/earning_this_period und die Versionen seit Jahresbeginn sind in earning_item/earning_ytd enthalten. „Direct Deposit“ (Direkte Einzahlung) und „Employee Account Number“ (Mitarbeiterkontonummer) sind jetzt unter „direct_deposit_item“ verschachtelt.
Das asynchrone Seitenlimit beträgt 10.
pretrained-paystub-v2.0-2022-07-22
Stabil
Keine
Qualitätsverbesserung und Verbesserungen beim Uptraining.
Ein Upgrade auf Version 1.3 mit einem verbesserten zugrunde liegenden Vision-Modell.
pretrained-expense-v1.4-2022-11-18
Releasekandidat
Felder einblenden
traveler_name
reservation_id
line_item/transaction_date
ja: Japanisch
it: Italienisch
pt: Portugiesisch (Portugal und Brasilien)
Leistungsverbesserungen und Unterstützung für das Uptraining. Das Limit für die maximale Anzahl von Seiten (Online-/synchrone Anfragen) wurde auf 15 erhöht.
pretrained-expense-v1.4.2-2024-09-12
Releasekandidat
Felder einblenden
traveler_name
reservation_id
line_item/transaction_date
ja: Japanisch
it: Italienisch
pt: Portugiesisch (Portugal und Brasilien)
Ein Upgrade auf Version 1.4 mit einem verbesserten zugrunde liegenden Vision-Modell.
Extrahiert Text und Werte aus Rechnungen, z. B. Rechnungsnummer, Lieferantenname, Rechnungsbetrag, Steuerbetrag, Rechnungsdatum, Fälligkeitsdatum.
Der Rechnungs-Parser extrahiert sowohl Kopf- als auch Positionsfelder, z. B. Rechnungsnummer, Lieferantenname, Rechnungsbetrag, Steuerbetrag, Rechnungsdatum, Fälligkeitsdatum und Positionsbeträge.
[*] Dieser Prozessor ist nur für Kunden mit eingeschränktem Zugriff verfügbar.
Wenn Sie den Zugriff auf diese API anfordern möchten, füllen Sie das Kundenanfrageformular für den eingeschränkten Zugriff auf Document AI aus und reichen Sie es ein.
Im Formular müssen Sie Informationen über sich, Ihr Unternehmen und Ihren Anwendungsfall angeben.
Beachten Sie, dass eine Google Cloud-Projekt-ID für den Zugriff erforderlich ist.
Halten Sie sich an diese Anleitung, um ein neues Google Cloud-Projekt zu erstellen oder die Projekt-ID eines vorhandenen Projekts zu ermitteln.
Nachdem Sie das Formular gesendet haben, prüft das Document AI-Team Ihre Anfrage, um sicherzustellen, dass Sie die Zugriffskriterien erfüllen.
Bei Genehmigung erhalten Sie eine E-Mail mit einer Anleitung dazu, wie Sie auf das Feature zugreifen und es verwenden können.
[†]
Beim Identitätsnachweis werden Informationen aus Ausweisdokumenten extrahiert und ausgewertet, um festzustellen, ob das Eingabebild einen authentischen Ausweis darstellt.
Bei Google Cloudhelfen wir Kunden bei der Entwicklung und Implementierung von KI-Lösungen auf Basis von KI-Prinzipien. Die Identitätsüberprüfung wurde in Übereinstimmung mit den KI-Grundsätzen von Google entwickelt.
Gemäß den KI-Grundsätzen von Google und dem aktuellen Produktdesign empfehlen wir dringend, Vorsicht walten zu lassen und die potenziellen Vorteile und Risiken der Verwendung der Funktion „Ausweisprüfung“ für die folgenden Zwecke sorgfältig abzuwägen:
Entscheidungsfindung ohne menschliche Beteiligung bei Vorhersagen, die sich auf Menschenrechte auswirken können.
In sensiblen Bereichen wie Beschäftigung, Zugang zu öffentlichen Diensten, Gesundheitswesen und sicherheitskritischen Kontexten.
[‡] Verwenden Sie die Identitätsüberprüfung immer als Teil Ihres umfassenderen Prozesses und Workflows zur Identitätserkennung.
Es ist wichtig, dass Sie einen menschlichen Prüfer in Ihren Workflow einbeziehen, um zu überprüfen, ob die vorhergesagten Signale korrekt sind. Der Identity Proofing-Prozessor soll die manuelle Überprüfung von Ausweisen in einem Workflow nicht ersetzen, sondern Prüfer bei der Validierung von Ausweisdokumenten unterstützen. Der Identity Proofing-Prozessor sollte nicht als automatisiertes Entscheidungstool verwendet werden, um festzustellen, ob ein Ausweis gültig ist. Durch die manuelle Überprüfung können Kunden eine höhere Genauigkeit bei der Dokumentenverarbeitung erzielen und Unternehmen bei der Bewertung von Vorhersagen helfen, indem sie speziell entwickelte Tools verwenden, die diese Überprüfungen ermöglichen.
Prüfen Sie die rechtlichen Vorgaben in der Region, in der Sie diese Technologie einsetzen, und informieren Sie sich über vorhandene Branchenrichtlinien, um mehr über Richtlinien und häufig auftretende Probleme im Zusammenhang mit Fairness zu erfahren. Hier finden Sie Informationen zur Fairness beim maschinellen Lernen, einschließlich Möglichkeiten, Verzerrungen in Trainingsdatensätzen zu reduzieren, Ihre benutzerdefinierten Modelle auf Leistungsunterschiede zu bewerten und andere Aspekte zu berücksichtigen, wenn Sie Ihr benutzerdefiniertes Modell verwenden.
Wir empfehlen unseren Kunden, bei der Implementierung der Identitätsüberprüfung Best Practices für Fairness, Interpretierbarkeit, Datenschutz und Sicherheit zu berücksichtigen. Weitere Informationen zur Implementierung von verantwortungsbewusster KI finden Sie in den Empfehlungen von Google für die verantwortungsbewusste Anwendung von KI.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-07-14 (UTC)."],[[["Document AI offers various processors for digitizing, extracting, classifying, and summarizing document content, including Enterprise Document OCR for text recognition in over 200 languages."],["Custom Extractor uses generative AI or custom models to extract fields from documents, supporting multiple languages and specific data types, such as `dateTime`, `currency`, `number`, and has different versions with varying functionalities and lifespans."],["Form Parser extracts key-value pairs, checkboxes, tables, and entities from documents in over 200 languages, utilizing machine learning and deep learning techniques, and is capable of extracting fields such as `email`, `phone`, `url`, `date_time`, and more."],["Layout Parser, available for files such as PDF, HTML and DOCX, extracts content elements like text, tables and lists, supports a wide array of languages, and allows for processing up to 15 pages online or 500 in batch."],["Specialized pretrained processors like Bank Statement Parser, W2 Parser, US Passport Parser, Utility Parser, Identity Document Proofing Parser, Pay Slip Parser, US Driver License Parser, Expense Parser, and Invoice Parser are available for extracting specific information from different document types."]]],[]]