Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Dokumente mit Formularparser verarbeiten
Der Formularparser extrahiert Schlüssel/Wert-Paare, Tabellen, Auswahlmarkierungen (z. B. Checkboxen), generische Felder und Text, um die Dokumentverarbeitung zu optimieren und zu automatisieren.
Form Parser kann gegenüber den anderen Parsern in Betracht gezogen werden, wenn der Anwendungsfall Folgendes umfasst:
Umgang mit strukturierten Formularen: Das Modell kann KVPs aus gut definierten Formularen extrahieren, die wie herkömmliche Formulare mit beschrifteten Feldern zum Ausfüllen aussehen, z. B. name: __. Das vortrainierte Modell von Form Parser bietet eine hohe Genauigkeit für gängige Felder wie Namen, Datumsangaben und Adressen.
Flexible Tabellenextraktion erforderlich: Der Formularparser extrahiert Daten aus einfachen Tabellen (keine Zellen, die sich über Zeilen oder Spalten erstrecken), die wie Tabellen aussehen. Es ist kein Training erforderlich (und auch nicht möglich). Für die trainierte Tabellenextraktion kann der benutzerdefinierte Extraktor mit einem übergeordneten Feld verwendet werden, das untergeordnete Spalten- (Zellen-)Felder enthält.
Effizienz: Sie möchten keine Extraktionsparser erstellen und verwalten müssen, insbesondere nicht für umfangreiche und vielfältige Extraktionsaufgaben.
Funktionen zur Datenextraktion
Die Funktionen des Formularparsers umfassen:
Schlüssel/Wert-Paare:Das sind Gruppen von zwei Elementen in einem Dokument – ein Label oder Schlüssel und die entsprechenden Daten (ein Wert). Sie können KVPs direkt verwenden (wenn die Schlüssel konsistent sind) oder benutzerdefinierte Logik erstellen, um unterschiedliche Schlüssel in konsistente strukturierte Informationen aufzulösen.
Allgemeine Entitäten:11 verschiedene Felder werden standardmäßig aus Dokumenten geparst. Dazu gehören:
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
Text und Layout:Mit unserer neuesten OCR-Engine können Sie Text und Layoutinformationen extrahieren. Dazu gehören eingebetteter Text aus digitalen PDFs (nur Version 2.1) oder Text aus Bildern.
Tabellen:Tabellen in Bildern und PDFs erkennen und extrahieren.
Kästchen:Ein hochwertiger Auswahlmarkierungserkennung, der Kästchen aus Bildern und PDF-Ausgabe als KVP extrahiert. Dabei wird der Text verwendet, der dem Kästchen am nächsten ist, und valueType gibt an, ob das Kästchen angekreuzt ist oder nicht.
Die folgenden Prozessorversionen sind mit dieser Funktion kompatibel. Weitere Informationen finden Sie unter Prozessorversionen verwalten.
Beschränkungen
Vorherige JPEG-Kompressionen für TIFF werden nicht unterstützt. Der Typ der JPEG-Kapselung, die durch die TIFF-Spezifikation Version 6.0 definiert wird.
Das Kontrollkästchenmodell unterstützt das Parsen von Optionsfeldern nicht. Für einige erkannte Kästchen gibt es möglicherweise keine entsprechenden Tasten.
Das Modell kann ein KVP mit einem leeren Wert, z. B. ein leeres Formular, nicht zuverlässig parsen.
Die KVP-Analyse von Dokumenten in bestimmten Sprachen ist möglicherweise von geringerer Qualität als bei lateinischen Sprachen.
Dokumente mit Formularparser verarbeiten
In dieser Kurzanleitung wird das Feature „Form Parser“ in Document AI vorgestellt. In dieser Kurzanleitung richten Sie mit der Google Cloud Console Ihr Google Cloud -Projekt und Ihre Autorisierung ein, erstellen einen Formularparser und senden dann eine Anfrage an Document AI, um ein PDF-Formular zu verarbeiten.
Sie erfahren, wie Sie:
Aktivieren Sie Document AI in einem Google Cloud -Projekt.
einen Formularparser-Prozessor erstellen, der Text, Schlüssel/Wert-Paare, Tabellen und generische Entitäten aus vielen Dokumenttypen identifizieren und extrahieren kann
den Prozessor verwenden, um ein Beispieldokument zu annotieren
Eine detaillierte Anleitung dazu finden Sie direkt in der Google Cloud Console. Klicken Sie dazu einfach auf Anleitung:
Sign in to your Google Cloud account. If you're new to
Google Cloud,
create an account to evaluate how our products perform in
real-world scenarios. New customers also get $300 in free credits to
run, test, and deploy workloads.
In the Google Cloud console, on the project selector page,
select or create a Google Cloud project.
Verwenden Sie die Google Cloud Console, um einen Formularparser-Prozessor zu erstellen. Weitere Informationen finden Sie unter Prozessoren erstellen und verwalten.
Klicken Sie im Google Cloud Navigationsmenü der Console auf Document AI und wählen Sie Prozessorgalerie aus.
Es ist eine PDF-Datei mit einem Beispiel einer handgeschriebenen medizinischen Datenaufnahme. Dieses Dokument wird in einem öffentlich zugänglichen Cloud Storage-Bucket gespeichert.
Klicken Sie auf die Schaltfläche Testdokument hochladen und wählen Sie das Dokument aus, das Sie gerade heruntergeladen haben.
Sie sollten sich jetzt auf der Seite Analyse des Formularparsers befinden. Sie können sich den aus dem Dokument erkannten Text sowie die Schlüssel/Wert-Paare, Tabellen und allgemeinen Entitäten ansehen.
Bereinigen
Um unnötige Google Cloud -Gebühren zu vermeiden, verwenden SieGoogle Cloud console , um den Prozessor und das Projekt zu löschen, wenn Sie diese nicht mehr benötigen.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-08-18 (UTC)."],[[["\u003cp\u003eForm Parser is a pre-trained tool that extracts key-value pairs, tables, selection marks, generic entities, and text from documents, suitable for structured forms and flexible table extraction.\u003c/p\u003e\n"],["\u003cp\u003eIt can parse and return data for 11 different generic entities, such as email, phone, address, person, organization, price and date_time, and can also extract data from checkboxes, and tables.\u003c/p\u003e\n"],["\u003cp\u003eForm Parser supports over 200 languages and offers feature support in eight regions, but it cannot be up-trained, and it cannot process radio buttons, nor extract data from blank or empty values.\u003c/p\u003e\n"],["\u003cp\u003eYou can create a Form Parser processor through the Google Cloud console, and then test it using the test document option with a sample PDF file to see the resulting extractions.\u003c/p\u003e\n"],["\u003cp\u003eThe Form Parser tool is designed to be efficient, eliminating the need to build and maintain custom extraction parsers for various high volume form document processing.\u003c/p\u003e\n"]]],[],null,["# Form Parser\n\nProcess documents with Form Parser\n==================================\n\nForm Parser extracts key-value pairs (KVPs), tables, selection marks (like checkboxes),\ngeneric fields, and text to augment and automate document processing.\n| **Note:** Form Parser is pre-trained and cannot be up-trained.\n\nForm Parser can be considered over the other parsers when the use case involves:\n\n- Dealing with structured forms: It excels at extracting KVPs from well-defined forms that look like conventional forms with labeled blanks to fill in, such as `name: __`. Form Parser's pre-trained model offers high accuracy for common fields like names, dates, and addresses.\n- Flexible table extraction is needed: Form Parser extracts from simple (no cells that span rows or columns) tables that look like tables. No training is needed (nor possible). For trained table extraction, the custom extractor can be used with a parent field containing column (cell) child fields.\n- Need efficiency: Avoid building and maintaining extraction parsers, especially for high-volume and varied forms of extraction tasks.\n\nData-extraction features\n------------------------\n\nForm Parser features encompass:\n\n- **KVP:** These are sets of two items within a document---a label or key and its\n corresponding data (a value). You can directly use KVPs (if the keys are consistent)\n or build custom logic to resolve varied keys into consistent structured information.\n\n- **Generic entities:** Parse 11 different fields from documents out of the box. These include:\n\n - `email`\n - `phone`\n - `url`\n - `date_time`\n - `address`\n - `person`\n - `organization`\n - `quantity`\n - `price`\n - `id`\n - `page_number`\n- **Text and layout:** Use our latest OCR engine to extract text and layout\n information. This includes embedded text from digital PDFs (v2.1 only) or text from images.\n\n- **Tables:** Detect and extract tables from images and PDFs.\n\n- **Checkboxes:** A high-quality selection mark detector, which extracts checkboxes\n from images and PDF output as KVP, using the text nearest the checkbox, with a `valueType`\n indicating whether it is filled or unfilled.\n\nLanguages and regions\n---------------------\n\n- Form Parser 2.0 supports over 200 languages. [Learn more](/document-ai/docs/processors-list#expandable-1).\n- We provide feature support in eight regions. [Learn more](/document-ai/docs/regions).\n\nModel versions\n--------------\n\nThe following processor versions are compatible with this feature. For more\ninformation, see [Managing processor versions](/document-ai/docs/manage-processor-versions).\n\nLimitations\n-----------\n\n- Prior JPEG compressions for TIFF are unsupported. Type of JPEG encapsulation defined by the TIFF [version 6.0 specification](https://gitlab.com/libtiff/libtiff/-/commit/f0a54a4fa0cfa377f493d57ee2af393005d5bbe5).\n\n- The checkbox model doesn't support parsing radio buttons. Some detected checkboxes might not have corresponding keys.\n\n- The model doesn't reliably parse a KVP with an unfilled value, such as a blank form.\n\n- The KVP parsing on documents in certain languages may have lower quality than Latin languages.\n\n\u003cbr /\u003e\n\nProcess documents with Form Parser\n----------------------------------\n\nThis quickstart introduces you to the Form Parser feature in Document AI. In this quickstart,\nyou use the Google Cloud console to set up your Google Cloud project and\nauthorization, create a Form Parser, and then make a request for\nDocument AI to process a PDF form.\n\nLearn how to:\n\n1. Enable Document AI in a Google Cloud project.\n\n2. Create a Form Parser processor, which can identify\n and extract text, key-value pairs, tables, and generic entities from many types of documents.\n\n3. Use the processor to annotate a sample document.\n\n*** ** * ** ***\n\nTo follow step-by-step guidance for this task directly in the\nGoogle Cloud console, click **Guide me**:\n\n[Guide me](https://console.cloud.google.com/ai/document-ai?tutorial=document-ai--documentai_form_parser_console)\n\n*** ** * ** ***\n\n- Sign in to your Google Cloud account. If you're new to Google Cloud, [create an account](https://console.cloud.google.com/freetrial) to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.\n- In the Google Cloud console, on the project selector page,\n select or create a Google Cloud project.\n\n | **Note**: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.\n\n [Go to project selector](https://console.cloud.google.com/projectselector2/home/dashboard)\n-\n [Verify that billing is enabled for your Google Cloud project](/billing/docs/how-to/verify-billing-enabled#confirm_billing_is_enabled_on_a_project).\n\n-\n\n\n Enable the Document AI API.\n\n\n [Enable the API](https://console.cloud.google.com/flows/enableapi?apiid=documentai.googleapis.com)\n\n- In the Google Cloud console, on the project selector page,\n select or create a Google Cloud project.\n\n | **Note**: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.\n\n [Go to project selector](https://console.cloud.google.com/projectselector2/home/dashboard)\n-\n [Verify that billing is enabled for your Google Cloud project](/billing/docs/how-to/verify-billing-enabled#confirm_billing_is_enabled_on_a_project).\n\n-\n\n\n Enable the Document AI API.\n\n\n [Enable the API](https://console.cloud.google.com/flows/enableapi?apiid=documentai.googleapis.com)\n\nCreate a Form Parser processor\n------------------------------\n\nUse the Google Cloud console to create a Form Parser processor. See [creating and managing processors](/document-ai/docs/create-processor) for more information.\n\n1. In the Google Cloud console navigation menu, click **Document AI** and\n select **Processor Gallery**.\n\n [Processor\n Gallery](https://console.cloud.google.com/ai/document-ai/processor-library)\n2. In the **Processor Gallery** ,\n search for\n **Form Parser** and select **Create**.\n\n\n3. In the side window, enter a **Processor name** , such as `quickstart-form-processor`.\n\n4. Select the region closest to you.\n\n5. Click the **Create** button.\n\nYou're taken to the **Processor Details** page of your new form parser processor.\n\nTest processor\n--------------\n\nAfter creating your processor, you can send annotation requests to it.\n\n1. [Download the sample document](https://storage.googleapis.com/cloud-samples-data/documentai/GeneralProcessors/FormParser/intake-form.pdf).\n\n It's a PDF file containing a sample handwritten medical intake form. This document is stored in a publicly accessible Cloud Storage bucket.\n2. Click the\n **Upload Test Document** button and select the document you just downloaded.\n\n3. You should now be on the **Form Parser analysis** page. You can view the OCR detected text, key-value pairs, tables, and generic entities extracted from the document.\n\n\nClean up\n--------\n\nTo avoid unnecessary Google Cloud charges, use the\n[Google Cloud console](https://console.cloud.google.com/) to delete your processor and [project](https://console.cloud.google.com/cloud-resource-manager) if you don't need\nthem.\n\nWhat's next\n-----------\n\n- Review the [Processors list](/document-ai/docs/processors-list)."]]