Melatih pemroses terlatih
Dengan menggunakan Invoice Parser, Anda dapat meng-uptrain pemroses terlatih untuk meningkatkan akurasi. Anda memulai dengan model siap pakai, lalu melatihnya dengan data Anda, dengan menambahkan kolom kustom. Format invoice beragam, dan melatih ulang Invoice Parser generik dengan data Anda dapat meningkatkan akurasi pada format tertentu dan memungkinkan parser mengekstrak kolom yang tidak didukung oleh model terlatih. Contoh data disediakan, tetapi Anda dapat mengikuti prosedur yang sama menggunakan data Anda sendiri.
Untuk mengikuti panduan langkah demi langkah tugas ini langsung di Google Cloud konsol, klik Pandu saya:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Membuat pemroses
Di Google Cloud menu navigasi konsol, pilih Document AI, lalu pilih Processor Gallery.
Di Processor Gallery,
cari Invoice Parser, lalu pilih Buat.Masukkan Nama pemroses, seperti
invoice-parser-for-uptraining
.Pilih wilayah yang terdekat dengan Anda.
Pilih Create. Tab Processor Details akan muncul.
Buat bucket Cloud Storage untuk set data
Untuk melatih prosesor baru ini, Anda harus membuat set data dengan data pelatihan dan pengujian untuk membantu prosesor mengidentifikasi entitas yang ingin Anda ekstrak.
Set data ini memerlukan bucket Cloud Storage baru. Jangan gunakan bucket yang sama dengan bucket tempat dokumen Anda disimpan.
Buka tab
Latih prosesor Anda.Pilih
Setel Lokasi Set Data . Anda akan diminta untuk memilih atau membuat bucket atau folder Cloud Storage yang kosong.Pilih
Jelajahi untuk membuka Pilih folder.Pilih
Buat bucket baru dan ikuti perintah untuk membuat bucket baru. Untuk mengetahui informasi selengkapnya tentang cara membuat bucket Cloud Storage, lihat Bucket Cloud Storage.Catatan: Bucket adalah entitas penyimpanan tingkat teratas, tempat Anda dapat menyusun folder secara bertingkat. Daripada membuat dan memilih bucket, Anda juga dapat membuat dan memilih folder kosong di dalam bucket yang sudah ada, jika Anda mau. Lihat folder simulasi.
Setelah Anda membuat bucket, halaman Select folder akan muncul untuk bucket tersebut.
Di halaman Pilih folder untuk bucket Anda, pilih
Pilih di bagian bawah dialog.Pastikan jalur tujuan diisi dengan nama bucket yang Anda pilih. Pilih
Buat Set Data . Pembuatan set data dapat memerlukan waktu hingga beberapa menit.
Langsung melanjutkan ke pelatihan ulang: Lanjutkan ke mengimpor data pra-label. Daripada mengimpor dokumen contoh, gunakan alat untuk melabeli kolom secara manual, dan tambahkan dokumen ke data pelatihan.
Memberi label dan menambahkan dokumen ke set pelatihan secara manual: Sebelum melanjutkan dengan pelatihan ulang, lanjutkan ke Mengimpor dokumen contoh untuk pemberian label manual, dan selesaikan petunjuk di sana.
Mengimpor contoh dokumen untuk pelabelan manual
Selanjutnya, impor contoh file PDF invoice ke dalam set data Anda. Anda memberi label pada kolom dalam dokumen ini untuk membantu proses pelatihan ulang berikutnya.
Dalam panduan ini, Anda akan diberikan file representatif yang akan menjadi contoh dokumen.
Di tab Train, pilih
Impor dokumen .Untuk contoh ini, masukkan nama bucket ini di
Source path . Link ini langsung menuju ke satu dokumen.cloud-samples-data/documentai/codelabs/uptraining/pdfs
Untuk Pemisahan data, pilih Tidak ditetapkan. Dokumen dalam folder ini tidak ditetapkan ke set pengujian atau pelatihan. Jangan centang Impor dengan pelabelan otomatis.
Pilih Impor Document AI membaca dokumen dari bucket ke dalam set data. Tidak mengubah bucket impor atau membaca dari bucket setelah impor selesai.
Saat mengimpor dokumen, Anda dapat secara opsional menetapkan dokumen ke set Pelatihan atau Pengujian saat diimpor, atau menunggu untuk menetapkannya nanti.
Jika Anda ingin menghapus dokumen yang telah diimpor, pilih dokumen tersebut di tab Latih, lalu pilih Hapus.
Untuk mengetahui informasi selengkapnya tentang cara menyiapkan data untuk diimpor, lihat Panduan persiapan data.
Tentukan skema pemroses
Set data Anda mungkin tidak berisi semua label yang didukung oleh Invoice Parser.
Jika demikian, Anda harus menandai label yang tidak digunakan sebagai Inactive
sebelum
Anda memulai pelatihan. Anda juga dapat menambahkan satu atau beberapa label kustom sebelum Anda
memulai pelatihan ulang.
Di tab Latih, pilih
Edit Skema di kiri bawah. Halaman Kelola label akan terbuka.Untuk menonaktifkan label yang tidak digunakan, centang
kotak centang untuk kolom yang tidak ada dalam daftar berikut, lalu pilih Nonaktifkan. Kolom berikut harus tetap diaktifkan:invoice_date line_item amount description receiver_address receiver_name supplier_address supplier_name total_amount
Catatan: Label tidak dapat dihapus. Sebagai gantinya, Anda dapat menonaktifkan label yang tidak ingin digunakan.
Pilih
Simpan setelah label selesai.Pilih
Panah Kembali untuk kembali ke halaman Latih.
Memberi label dokumen
Proses memilih teks dalam dokumen, dan menerapkan label dikenal sebagai anotasi.
Kembali ke tab Train, lalu pilih
dokumen untuk membuka konsol Label management.Selanjutnya, Anda memilih dari label skema di panel sebelah kiri yang sesuai dengan nilai yang ingin Anda beri anotasi, lalu menerapkan label.
Gunakan alat
Kotak pembatas secara default, atau alatPilih teks untuk nilai multi-baris, guna memilih konten dan menerapkan label.Misalnya, dalam invoice ini, teks "McWilliam Piping International Piping Company" harus diberi label
supplier_name
. Anda dapat menggunakan filter teks untuk menelusuri nama label.Catatan: Alat Pilih teks tidak berfungsi untuk semua nilai teks, jadi gunakan Kotak pembatas jika sesuai. Anda juga dapat memilih kolom non-teks seperti kotak centang menggunakan alat Kotak pembatas.
Tinjau nilai teks yang terdeteksi untuk memastikan bahwa nilai tersebut mencerminkan teks yang benar dari dokumen.
Saat Anda memilih teks yang sesuai dengan label, pastikan Anda hanya menyertakan teks yang relevan. Misalnya, untuk label
invoice_id
, jangan sertakan karakter seperti#
yang sering mendahului nilai numerik. Jangan sertakan simbol mata uang seperti$
untuk uang.- Pastikan Anda menganotasi semua instance entity. Misalnya,
supplier_name
atauinvoice_id
dapat muncul beberapa kali dalam dokumen, dan setiap instance harus diberi anotasi.
- Pastikan Anda menganotasi semua instance entity. Misalnya,
Ulangi untuk setiap kolom yang ingin Anda beri label.
Berikut adalah contoh kumpulan lengkap label dengan teks yang sesuai.
Nama Label | Teks |
---|---|
supplier_name |
McWilliam Piping International Piping Company |
supplier_address |
14368 Pipeline Ave Chino, CA 91710 |
invoice_id |
10001 |
due_date |
2020-01-02 |
line_item/description |
Kopling Knuckle |
line_item/quantity |
9 |
line_item/unit_price |
74,43 |
line_item/amount |
669,87 |
line_item/description |
Pipa PVC 12 Inci |
line_item/quantity |
7 |
line_item/unit_price |
15,90 |
line_item/amount |
111,30 |
line_item/description |
Pipa Tembaga |
line_item/quantity |
7 |
line_item/unit_price |
91,20 |
line_item/amount |
638,40 |
net_amount |
1.419,57 |
total_tax_amount |
113,57 |
total_amount |
1.533,14 |
currency |
$ |
Pilih
Tandai sebagai Berlabel setelah Anda selesai memberi anotasi pada dokumen.Di tab Train, panel sebelah kiri menunjukkan bahwa 1 dokumen telah diberi label.
Menetapkan dokumen beranotasi ke set pelatihan
Setelah memberi label pada contoh dokumen ini, Anda dapat menetapkannya ke set pelatihan.
Di tab Train, centang kotak
Pilih Semua .Dari daftar
Tetapkan ke Set , pilih Training.
Di panel sebelah kiri, Anda dapat menemukan bahwa 1 dokumen telah ditetapkan ke set pelatihan.
Mengimpor data yang sudah diberi label ke set pelatihan dan pengujian
Pelatihan ulang Document AI memerlukan minimal 10 dokumen dalam set pelatihan dan pengujian, bersama dengan 10 instance dari setiap label di setiap set.
Sebaiknya Anda memiliki minimal 50 dokumen di setiap set, dengan 50 instance dari setiap label, untuk mendapatkan performa terbaik. Makin banyak data pelatihan, umumnya makin tinggi akurasinya.
Dalam panduan ini, Anda akan diberi data yang telah diberi label. Jika mengerjakan proyek Anda sendiri, Anda harus menentukan cara memberi label pada data Anda. Lihat Opsi pelabelan.
Pilih
Impor dokumen .Masukkan jalur berikut di
Source path . Bucket ini berisi dokumen yang telah diberi label sebelumnya dalam format JSON Dokumen.cloud-samples-data/documentai/Custom/Invoices/JSON
Dari daftar Data split, pilih Auto-split. Hal ini akan otomatis membagi dokumen menjadi 80% di set pelatihan, dan 20% di set pengujian. Biarkan Impor dengan pemberian label otomatis tidak dicentang.
Pilih Impor Proses impor mungkin memerlukan waktu beberapa menit. Setelah itu, Anda akan menemukan dokumen di tab Latih.
Opsional: Otomatis melabeli dokumen yang baru diimpor
Saat mengimpor dokumen yang tidak berlabel untuk prosesor dengan versi prosesor yang sudah di-deploy, Anda dapat menggunakan Pelabelan otomatis untuk menghemat waktu pelabelan.
Di halaman Train,
Import documents .Salin dan tempel jalur Cloud Storage berikut. Direktori ini berisi lima PDF invoice tanpa label. Dari daftar drop-down Data split, pilih Training.
cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
Di bagian Auto-labeling, centang kotak
Import with auto-labeling .Pilih versi prosesor yang ada untuk melabeli dokumen.
- Contoh:
pretrained-invoice-v1.3-2022-07-15
- Contoh:
Pilih Impor dan tunggu hingga dokumen selesai diimpor. Anda dapat keluar dari halaman ini dan kembali lagi nanti.
- Setelah selesai, dokumen akan muncul di halaman Train di bagian Auto-labeled.
Anda tidak dapat menggunakan dokumen berlabel otomatis untuk pelatihan atau pengujian tanpa menandainya sebagai berlabel. Buka bagian
Berlabel otomatis untuk melihat dokumen berlabel otomatis.Pilih dokumen pertama untuk masuk ke konsol pelabelan.
Verifikasi label untuk memastikan kebenarannya. Sesuaikan jika salah.
Pilih
Tandai sebagai Berlabel setelah selesai.Ulangi verifikasi label untuk setiap dokumen yang diberi label otomatis, lalu kembali ke halaman Train untuk menggunakan data tersebut untuk pelatihan.
Melatih pemroses
Setelah mengimpor data pelatihan dan pengujian, Anda dapat melatih pemroses. Karena pelatihan mungkin memerlukan waktu beberapa jam, pastikan Anda telah menyiapkan prosesor dengan data dan label yang sesuai sebelum memulai pelatihan.
Pilih
Latih Ulang Versi Baru .Di kolom
Nama versi , masukkan nama untuk versi pemroses ini, sepertiinvoice-uptrain-1
.(Opsional) Pilih Lihat Statistik Label untuk menemukan informasi tentang label dokumen. Hal ini dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.
Pilih
Mulai pelatihan Anda dapat memeriksa status di panel sebelah kanan.Halaman Pengelolaan set data akan terbuka. Anda dapat melihat status pelatihan di sisi kanan. Pelatihan kemungkinan akan memerlukan waktu beberapa jam, bergantung pada ukuran set data Anda. Anda dapat meninggalkan halaman ini dan kembali lagi nanti.
Men-deploy versi pemroses
Setelah pelatihan selesai, buka tab
Kelola Versi . Anda dapat melihat detail tentang versi yang baru saja Anda latih.Pilih
tiga titik vertikal di sebelah kanan versi yang ingin Anda deploy, lalu pilih Deploy version.Pilih
Deploy dari jendela pop-up.Proses deployment memerlukan waktu beberapa menit hingga selesai.
Mengevaluasi dan menguji pemroses
Setelah deployment selesai, buka tab
Evaluate & Test .Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, Presisi, dan Recall untuk dokumen lengkap, dan masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat Mengevaluasi pemroses.
Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya agar Anda dapat menggunakannya untuk mengevaluasi versi prosesor. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disisihkan untuk tujuan ini.
Pilih
Upload Test Document , lalu pilih dokumen yang baru saja Anda download.Halaman Analisis Invoice Parser akan terbuka. Output layar menunjukkan seberapa baik dokumen diklasifikasikan.
Anda juga dapat menjalankan kembali evaluasi terhadap set pengujian atau versi prosesor yang berbeda.
Menggunakan prosesor
Anda telah berhasil membuat dan melatih ulang prosesor Invoice Parser.
Anda dapat mengelola versi prosesor yang dilatih kustom seperti versi prosesor lainnya, misalnya saat bermigrasi ke prosesor yang lebih baru saat prosesor yang lama tidak digunakan lagi. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.
Anda dapat Mengirim permintaan pemrosesan ke pemroses kustom, dan respons dapat ditangani dengan cara yang sama seperti pemroses ekstraksi entitas lainnya.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
Untuk menghindari tagihan yang tidak perlu, gunakan Google Cloud Google Cloud console untuk menghapus prosesor dan project Anda jika tidak membutuhkannya.
Jika Anda membuat project baru untuk mempelajari Document AI dan Anda tidak lagi memerlukan project tersebut, [hapus project tersebut][delete-project].
Jika Anda menggunakan project Google Cloud yang sudah ada, hapus resource yang Anda buat untuk menghindari tagihan pada akun Anda:
Di Google Cloud menu navigasi konsol, pilih Document AI, lalu pilih My Processors.
Pilih
Tindakan lainnya di baris yang sama dengan pemroses yang ingin Anda hapus.Pilih Hapus pemroses, masukkan nama pemroses, lalu pilih Hapus lagi untuk mengonfirmasi.