Halaman ini diterjemahkan oleh Cloud Translation API.

Ekstraksi berbasis template

Anda dapat melatih model berperforma tinggi dengan hanya tiga dokumen pelatihan dan tiga dokumen pengujian untuk kasus penggunaan tata letak tetap. Percepat pengembangan dan kurangi waktu produksi untuk jenis dokumen dengan template seperti W9, 1040, ACORD, survei, dan kuesioner.

Konfigurasi set data

Set data dokumen diperlukan untuk melatih, melakukan uptrain, atau mengevaluasi versi pemroses. Pemroses Document AI belajar dari contoh, sama seperti manusia. Set data mendorong stabilitas prosesor dalam hal performa.

Set data pelatihan

Untuk meningkatkan model dan akurasinya, latih set data pada dokumen Anda. Model ini terdiri dari dokumen dengan kebenaran dasar. Anda memerlukan minimal tiga dokumen untuk melatih model baru.

Set data pengujian

Set data pengujian adalah yang digunakan model untuk menghasilkan skor F1 (akurasi). Set data ini terdiri dari dokumen dengan kebenaran dasar. Untuk melihat seberapa sering model benar, kebenaran dasar digunakan untuk membandingkan prediksi model (kolom yang diekstrak dari model) dengan jawaban yang benar. Set data pengujian harus memiliki minimal tiga dokumen.

Sebelum memulai

Jika belum dilakukan, aktifkan:

Praktik terbaik pelabelan mode template

Pelabelan yang tepat adalah salah satu langkah terpenting untuk mencapai akurasi tinggi. Mode template memiliki beberapa metodologi pemberian label unik yang berbeda dari mode pelatihan lainnya:

Gambar kotak pembatas di sekitar seluruh area yang Anda harapkan berisi data (per label) dalam dokumen, meskipun label kosong dalam dokumen pelatihan yang Anda beri label.
Anda dapat memberi label pada kolom kosong untuk pelatihan berbasis template. Jangan beri label pada kolom kosong untuk pelatihan berbasis model.

Mem-build dan mengevaluasi ekstraktor kustom dengan mode template

Buat ekstraktor kustom. Buat pemroses dan tentukan kolom yang ingin diekstrak dengan mengikuti praktik terbaik, yang penting karena memengaruhi kualitas ekstraksi.
Menetapkan lokasi set data. Pilih folder opsi default (terkelola Google). Tindakan ini mungkin dilakukan secara otomatis segera setelah membuat pemroses.
Buka tab Build, lalu pilih Import documents dengan label otomatis diaktifkan. Menambahkan lebih banyak dokumen daripada tiga dokumen minimum yang diperlukan biasanya tidak meningkatkan kualitas untuk pelatihan berbasis template. Daripada menambahkan lebih banyak, fokuslah pada pemberian label pada kumpulan kecil dengan sangat akurat.

Catatan: Anda dapat bereksperimen dengan meningkatkan ukuran set pelatihan jika mengamati variasi template dalam set data. Coba sertakan minimal tiga dokumen pelatihan per variasi. Setidaknya tiga dokumen pelatihan, tiga dokumen pengujian, dan tiga label skema diperlukan per set.
Memperluas kotak pembatas. Kotak ini untuk mode template akan terlihat seperti contoh sebelumnya. Luaskan kotak pembatas, dengan mengikuti praktik terbaik untuk hasil yang optimal.
Melatih model.
1. Pilih Train new version.
2. Beri nama versi pemroses.
3. Buka Tampilkan opsi lanjutan dan pilih pendekatan model berbasis template.
Catatan: Diperlukan waktu beberapa saat untuk menyelesaikan pelatihan.
Evaluasi.
1. Buka Evaluasi & uji.
2. Pilih versi yang baru saja Anda latih, lalu pilih Lihat Evaluasi Lengkap.
Sekarang Anda akan melihat metrik seperti F1, presisi, dan recall untuk seluruh dokumen dan setiap kolom. 1. Tentukan apakah performa memenuhi sasaran produksi Anda, dan jika tidak, evaluasi ulang set pelatihan dan pengujian.
Tetapkan versi baru sebagai default.
1. Buka Kelola versi.
2. Pilih untuk melihat menu setelan, lalu tandai Tetapkan sebagai default.
Model Anda kini di-deploy dan dokumen yang dikirim ke pemroses ini menggunakan versi kustom Anda. Anda ingin mengevaluasi performa model (detail selengkapnya tentang cara melakukannya) untuk memeriksa apakah model memerlukan pelatihan lebih lanjut.

Referensi evaluasi

Mesin evaluasi dapat melakukan pencocokan persis atau pencocokan fuzzy. Untuk kecocokan persis, nilai yang diekstrak harus sama persis dengan kebenaran dasar atau dihitung sebagai tidak cocok.

Ekstraksi pencocokan fuzzy yang memiliki sedikit perbedaan seperti perbedaan kapitalisasi masih dihitung sebagai kecocokan. Hal ini dapat diubah di layar Evaluasi.

template-based-extraction-6

Pelabelan otomatis dengan model dasar

Model dasar dapat mengekstrak kolom secara akurat untuk berbagai jenis dokumen, tetapi Anda juga dapat memberikan data pelatihan tambahan untuk meningkatkan akurasi model untuk struktur dokumen tertentu.

Document AI menggunakan nama label yang Anda tentukan dan anotasi sebelumnya untuk mempercepat dan mempermudah pemberian label pada dokumen dalam skala besar dengan pelabelan otomatis.

Setelah membuat pemroses kustom, buka tab Mulai.
Pilih Buat Kolom Baru.

Catatan: Nama label dengan model dasar dapat sangat memengaruhi akurasi dan performa model. Pastikan untuk memberikan nama yang deskriptif.
Buka tab Build, lalu pilih Import documents.
Pilih jalur dokumen dan set tempat dokumen akan diimpor. Centang kotak centang pemberian label otomatis dan pilih model dasar.
Di tab Build, pilih Kelola set data. Anda akan melihat dokumen yang diimpor. Pilih salah satu dokumen Anda.
Anda melihat prediksi dari model yang ditandai dengan warna ungu, Anda perlu meninjau setiap label yang diprediksi oleh model dan memastikannya sudah benar. Jika ada kolom yang tidak ada, Anda juga harus menambahkannya.

Catatan: Semua kolom harus seakurat mungkin atau performa model akan terpengaruh. Untuk detail selengkapnya tentang pelabelan.
Setelah dokumen ditinjau, pilih Tandai sebagai telah diberi label.
Dokumen kini siap digunakan oleh model. Pastikan dokumen berada dalam set pengujian atau pelatihan.

Sebelumnya

Ekstraksi berbasis kustom

Berikutnya

Pengekstrak kustom dengan AI generatif