Pengurai Formulir mengekstrak pasangan nilai kunci (KVP), tabel, tanda pilihan (kotak centang),
dan kolom generik untuk meningkatkan dan mengotomatiskan ekstraksi. Fitur ini dapat mengekstrak hingga 11
entitas dan kotak centang generik secara langsung. Anda tidak menentukan kolom (skema) yang ingin diekstrak dengan Form Parser. Model mendeteksi dan menampilkan entity yang relevan dari setiap halaman dokumen.
Pengekstrak kustom
Ekstraktor kustom mengekstrak entity yang Anda tentukan dalam skema dan menawarkan tiga opsi pemodelan: model dasar, berbasis model kustom, dan berbasis template kustom. Mengingat hasil yang menjanjikan dari model dasar dengan sedikit atau tanpa data pelatihan, sebaiknya mulai dengan model dasar sebagai opsi pertama dan coba opsi lain sesuai kebutuhan.
Model dasar melakukan prediksi zero-shot hingga few-shot, berdasarkan hingga 5 dokumen berlabel dalam set data, dan prediksi yang di-fine-tune dengan lebih dari 10 dokumen berlabel dalam set data.
Metode pelatihan
Contoh dokumen
Variasi tata letak dokumen
Teks atau paragraf bentuk bebas
Jumlah dokumen pelatihan untuk kualitas siap produksi, bergantung pada variabilitas
Model dasar dan penyesuaian (AI generatif).
Kontrak, persyaratan layanan, invoice, laporan mutasi bank, surat muatan kapal, slip gaji.
Tinggi ke Rendah (lebih disukai).
Tinggi.
Sedang: 0-50+ dokumen.
Model kustom.
Model.
Formulir serupa dengan variasi tata letak di berbagai tahun atau vendor (misalnya, W9).
Rendah hingga sedang.
Rendah.
Tinggi: 10-100+ dokumen.
Template.
Formulir pajak dengan tata letak tetap (misalnya, Formulir 941 dan 709).
Tidak ada.
Rendah.
Rendah (3 dokumen).
Karena model dasar biasanya memerlukan lebih sedikit dokumen pelatihan, model ini direkomendasikan sebagai opsi pertama untuk semua tata letak variabel.
Parser Tata Letak
Layout Parser mengonversi dokumen dalam berbagai format menjadi representasi terstruktur, sehingga konten seperti paragraf, tabel, daftar, dan elemen struktural seperti judul, header halaman, dan footer dapat diakses, serta membuat potongan kontekstual yang memfasilitasi pengambilan informasi dalam berbagai aplikasi AI generatif dan penemuan.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-09-04 UTC."],[[["\u003cp\u003eDocument AI offers tools like Form Parser, Custom extractor, and Layout Parser for extracting information from documents based on various use cases.\u003c/p\u003e\n"],["\u003cp\u003eForm Parser automatically extracts key-value pairs, tables, selection marks, and up to 11 generic entities without needing a predefined schema.\u003c/p\u003e\n"],["\u003cp\u003eThe Custom extractor allows users to define their extraction schema and offers three modeling options: foundation model, custom model-based, and custom template-based.\u003c/p\u003e\n"],["\u003cp\u003eFoundation models in Custom extractors are recommended as the first option due to their ability to perform with minimal training data.\u003c/p\u003e\n"],["\u003cp\u003eLayout Parser transforms documents into structured data, identifying elements such as paragraphs, tables, lists, headings, and headers/footers, for use in information retrieval and generative AI applications.\u003c/p\u003e\n"]]],[],null,["# Extraction overview\n===================\n\nDocument AI offers multiple products to extract information from documents\nfor different use cases:\n\n- [Form Parser](#form-parser)\n- Custom extractor, which offers three different modeling types:\n\n - Foundation model\n - Custom model based\n - Custom template based\n- [Layout Parser](#layout-parser)\n\nForm Parser\n-----------\n\nForm Parser extracts key-value pairs (KVP), tables, selection marks (checkboxes),\nand generic fields to augment and automate extraction. It can extract up to 11\ngeneric entities and checkboxes out of the box. You don't specify the fields (schema),\nyou want to extract with the Form Parser. The model detects and returns entities\nof interest from each page of documents.\n\nCustom extractor\n----------------\n\nThe custom extractor extracts entities you define in schema and offers three modeling options:\nfoundation model, custom model based, and custom template based. Given promising\nresults from foundation models with little to no training data, we recommend starting\nwith the foundation model as the first option and try out other options as needed.\nThe foundation models do zero- to few-shot prediction, based on up to 5 labeled\ndocuments in the dataset, and fine-tuned prediction with more than 10 labeled documents in the dataset.\n\nBecause foundation models typically require fewer training documents, they're\nrecommended as the first option for all variable layouts.\n\nLayout Parser\n-------------\n\n| **Note:** Layout Parser is in Public preview\n\nLayout Parser transforms documents in various formats into structured\nrepresentations, making content like paragraphs, tables, lists, and structural\nelements like headings, page headers, and footers accessible, and creating\ncontext-aware chunks that facilitate information retrieval in a range of\ngenerative AI and discovery apps."]]