Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Ringkasan pengekstrak kustom
Ekstraktor kustom mengekstrak entity dari dokumen dengan jenis tertentu. Misalnya, model ini dapat mengekstrak item dalam menu atau nama dan informasi kontak
dari resume.
Ringkasan
Tujuan ekstraktor kustom adalah memungkinkan pengguna Document AI membuat
solusi ekstraksi entitas kustom untuk jenis dokumen
baru yang tidak memiliki pemroses terlatih sebelumnya. Ekstraktor kustom mencakup
kombinasi model deep learning yang memahami tata letak (untuk AI generatif dan model
kustom) serta model berbasis template.
Metode pelatihan mana yang harus saya gunakan?
Ekstraktor kustom mendukung berbagai kasus penggunaan dengan tiga mode yang berbeda.
Metode pelatihan
Contoh dokumen
Variasi tata letak dokumen
Teks atau paragraf bentuk bebas
Jumlah dokumen pelatihan untuk kualitas siap produksi, bergantung pada variabilitas
Model dasar dan penyesuaian (AI generatif).
Kontrak, persyaratan layanan, invoice, laporan mutasi bank, surat muatan kapal, slip gaji.
Tinggi ke Rendah (lebih disarankan).
Tinggi.
Sedang: 0-50+ dokumen.
Model kustom.
Model.
Formulir serupa dengan variasi tata letak di seluruh tahun atau vendor (misalnya, W9).
Rendah hingga sedang.
Rendah.
Tinggi: 10-100+ dokumen.
Template.
Formulir pajak dengan tata letak tetap (misalnya, Formulir 941 dan 709).
Tidak ada.
Rendah.
Rendah (3 dokumen).
Karena model dasar biasanya memerlukan lebih sedikit dokumen pelatihan, model ini
direkomendasikan sebagai opsi pertama untuk semua tata letak variabel.
Skor keyakinan
Skor keyakinan menunjukkan seberapa kuat model Anda mengaitkan setiap entity
dengan nilai yang diprediksi. Nilainya antara nol dan satu, semakin dekat dengan
satu, semakin tinggi keyakinan model bahwa nilai tersebut sesuai dengan entitas.
Hal ini memungkinkan pengguna menetapkan pemicu untuk peninjauan manual setiap entitas jika nilainya rendah. Misalnya, menentukan apakah teks dalam entitas adalah
"Hello, world!" atau "HeIIo vvorld!"
Manfaat pendekatan ini memungkinkan pendeteksian setiap entitas dengan tingkat keyakinan rendah, menetapkan nilai minimum untuk prediksi yang digunakan, memilih nilai minimum keyakinan yang optimal, dan pengembangan strategi baru untuk melatih model dengan akurasi dan skor keyakinan yang lebih tinggi.
Untuk informasi selengkapnya tentang konsep dan metrik evaluasi, lihat Mengevaluasi
Performa
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-08-18 UTC."],[[["\u003cp\u003eCustom extractors are designed to identify and extract specific entities from various document types, including menus and resumes, for which pre-trained processors may not exist.\u003c/p\u003e\n"],["\u003cp\u003eThe custom extractor employs a combination of layout-aware deep learning models and template-based models to accommodate diverse document structures.\u003c/p\u003e\n"],["\u003cp\u003eThree training methods are available for the custom extractor: fine-tuning with foundation models, custom models, and template-based models, each suited for different levels of document layout variability.\u003c/p\u003e\n"],["\u003cp\u003eFoundation models are the preferred training option for documents with variable layouts, as they typically require fewer training documents compared to other methods.\u003c/p\u003e\n"],["\u003cp\u003eThe confidence score, ranging from zero to one, indicates the model's certainty in associating a value with a predicted entity, enabling users to set review thresholds and improve model accuracy.\u003c/p\u003e\n"]]],[],null,["# Custom extractor overview\n=========================\n\nCustom extractor extracts entities from documents of a particular type. For\nexample, it can extract the items in a menu or the name and contact information\nfrom a resume.\n\nOverview\n--------\n\nThe goal of the custom extractor is to enable Document AI users to build\ncustom entity extraction solutions for new document\ntypes for which no pre-trained processors are available. Custom extractor includes\na combination of layout-aware deep learning models (for generative AI and custom\nmodels) and template-based models.\n\nWhich training method should I use?\n-----------------------------------\n\nCustom extractor supports a wide range of use cases with three different modes.\n\nBecause foundation models typically require fewer training documents, they're\nrecommended as the first option for all variable layouts.\n\nConfidence score\n----------------\n\nThe confidence score communicates how strongly your model associates each entity\nwith the predicted value. The value is between zero and one, the closer it is to\none, the higher the model's confidence that the value corresponds to the entity.\nThis allows users to set triggers for manual review of individual entities when\nthe value is low. For example, determining whether the text in an entity is\n\"Hello, world!\" or \"HeIIo vvorld!\"\n\nThe benefits of this approach allow for spotting individual entities with low\nconfidence, setting thresholds for which predictions are used, selecting the\noptimal [confidence threshold](/document-ai/docs/evaluate#confidence_threshold), and development\nof new strategies for training models with higher accuracy and confidence scores.\n\nFor more information on evaluation concepts and metrics, see [Evaluate\nPerformance](/document-ai/docs/evaluate#all-labels)"]]