Melatih pemroses terlatih

Dengan menggunakan Invoice Parser, Anda dapat meng-uptrain pemroses terlatih untuk meningkatkan akurasi. Anda memulai dengan model siap pakai, lalu melatihnya dengan data Anda, dengan menambahkan kolom kustom. Format invoice beragam, dan melatih ulang Invoice Parser generik dengan data Anda dapat meningkatkan akurasi pada format tertentu dan memungkinkan parser mengekstrak kolom yang tidak didukung oleh model terlatih. Contoh data disediakan, tetapi Anda dapat mengikuti prosedur yang sama menggunakan data Anda sendiri.


Untuk mengikuti panduan langkah demi langkah tugas ini langsung di Google Cloud konsol, klik Pandu saya:

Pandu saya


Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

Membuat pemroses

  1. Di Google Cloud menu navigasi konsol, pilih Document AI, lalu pilih Processor Gallery.

    Prosesor Galeri

  2. Di Processor Gallery, cari Invoice Parser, lalu pilih Buat.

    uptrain-a-legacy-processor-1

  3. Masukkan Nama pemroses, seperti invoice-parser-for-uptraining.

  4. Pilih wilayah yang terdekat dengan Anda.

  5. Pilih Create. Tab Processor Details akan muncul.

    uptrain-a-legacy-processor-2

Buat bucket Cloud Storage untuk set data

Untuk melatih prosesor baru ini, Anda harus membuat set data dengan data pelatihan dan pengujian untuk membantu prosesor mengidentifikasi entitas yang ingin Anda ekstrak.

Set data ini memerlukan bucket Cloud Storage baru. Jangan gunakan bucket yang sama dengan bucket tempat dokumen Anda disimpan.

  1. Buka tab Latih prosesor Anda.

  2. Pilih Setel Lokasi Set Data. Anda akan diminta untuk memilih atau membuat bucket atau folder Cloud Storage yang kosong.

    uptrain-a-legacy-processor-3

  3. Pilih Jelajahi untuk membuka Pilih folder.

  4. Pilih Buat bucket baru dan ikuti perintah untuk membuat bucket baru. Untuk mengetahui informasi selengkapnya tentang cara membuat bucket Cloud Storage, lihat Bucket Cloud Storage.

    Catatan: Bucket adalah entitas penyimpanan tingkat teratas, tempat Anda dapat menyusun folder secara bertingkat. Daripada membuat dan memilih bucket, Anda juga dapat membuat dan memilih folder kosong di dalam bucket yang sudah ada, jika Anda mau. Lihat folder simulasi.

    Setelah Anda membuat bucket, halaman Select folder akan muncul untuk bucket tersebut.

  5. Di halaman Pilih folder untuk bucket Anda, pilih Pilih di bagian bawah dialog.

    uptrain-a-legacy-processor-4

  6. Pastikan jalur tujuan diisi dengan nama bucket yang Anda pilih. Pilih Buat Set Data. Pembuatan set data dapat memerlukan waktu hingga beberapa menit.

    uptrain-a-legacy-processor-5

  • Langsung melanjutkan ke pelatihan ulang: Lanjutkan ke mengimpor data pra-label. Daripada mengimpor dokumen contoh, gunakan alat untuk melabeli kolom secara manual, dan tambahkan dokumen ke data pelatihan.

  • Memberi label dan menambahkan dokumen ke set pelatihan secara manual: Sebelum melanjutkan dengan pelatihan ulang, lanjutkan ke Mengimpor dokumen contoh untuk pemberian label manual, dan selesaikan petunjuk di sana.

Mengimpor contoh dokumen untuk pelabelan manual

Selanjutnya, impor contoh file PDF invoice ke dalam set data Anda. Anda memberi label pada kolom dalam dokumen ini untuk membantu proses pelatihan ulang berikutnya.

Dalam panduan ini, Anda akan diberikan file representatif yang akan menjadi contoh dokumen.

  1. Di tab Train, pilih Impor dokumen.

    uptrain-a-legacy-processor-6

  2. Untuk contoh ini, masukkan nama bucket ini di Source path. Link ini langsung menuju ke satu dokumen.

    cloud-samples-data/documentai/codelabs/uptraining/pdfs
    
  3. Untuk Pemisahan data, pilih Tidak ditetapkan. Dokumen dalam folder ini tidak ditetapkan ke set pengujian atau pelatihan. Jangan centang Impor dengan pelabelan otomatis.

  4. Pilih Impor Document AI membaca dokumen dari bucket ke dalam set data. Tidak mengubah bucket impor atau membaca dari bucket setelah impor selesai.

Saat mengimpor dokumen, Anda dapat secara opsional menetapkan dokumen ke set Pelatihan atau Pengujian saat diimpor, atau menunggu untuk menetapkannya nanti.

Jika Anda ingin menghapus dokumen yang telah diimpor, pilih dokumen tersebut di tab Latih, lalu pilih Hapus.

Untuk mengetahui informasi selengkapnya tentang cara menyiapkan data untuk diimpor, lihat Panduan persiapan data.

Tentukan skema pemroses

Set data Anda mungkin tidak berisi semua label yang didukung oleh Invoice Parser. Jika demikian, Anda harus menandai label yang tidak digunakan sebagai Inactive sebelum Anda memulai pelatihan. Anda juga dapat menambahkan satu atau beberapa label kustom sebelum Anda memulai pelatihan ulang.

  1. Di tab Latih, pilih Edit Skema di kiri bawah. Halaman Kelola label akan terbuka.

  2. Untuk menonaktifkan label yang tidak digunakan, centang kotak centang untuk kolom yang tidak ada dalam daftar berikut, lalu pilih Nonaktifkan. Kolom berikut harus tetap diaktifkan:

    invoice_date
    line_item
      amount
      description
    receiver_address
    receiver_name
    supplier_address
    supplier_name
    total_amount
    

    Catatan: Label tidak dapat dihapus. Sebagai gantinya, Anda dapat menonaktifkan label yang tidak ingin digunakan.

  3. Pilih Simpan setelah label selesai.

    uptrain-a-legacy-processor-7

  4. Pilih Panah Kembali untuk kembali ke halaman Latih.

Memberi label dokumen

Proses memilih teks dalam dokumen, dan menerapkan label dikenal sebagai anotasi.

  1. Kembali ke tab Train, lalu pilih dokumen untuk membuka konsol Label management.

  2. Selanjutnya, Anda memilih dari label skema di panel sebelah kiri yang sesuai dengan nilai yang ingin Anda beri anotasi, lalu menerapkan label.

  3. Gunakan alat Kotak pembatas secara default, atau alat Pilih teks untuk nilai multi-baris, guna memilih konten dan menerapkan label.

    Misalnya, dalam invoice ini, teks "McWilliam Piping International Piping Company" harus diberi label supplier_name. Anda dapat menggunakan filter teks untuk menelusuri nama label.

    Catatan: Alat Pilih teks tidak berfungsi untuk semua nilai teks, jadi gunakan Kotak pembatas jika sesuai. Anda juga dapat memilih kolom non-teks seperti kotak centang menggunakan alat Kotak pembatas.

  4. Tinjau nilai teks yang terdeteksi untuk memastikan bahwa nilai tersebut mencerminkan teks yang benar dari dokumen.

    • Saat Anda memilih teks yang sesuai dengan label, pastikan Anda hanya menyertakan teks yang relevan. Misalnya, untuk label invoice_id, jangan sertakan karakter seperti # yang sering mendahului nilai numerik. Jangan sertakan simbol mata uang seperti $ untuk uang.

      • Pastikan Anda menganotasi semua instance entity. Misalnya, supplier_name atau invoice_id dapat muncul beberapa kali dalam dokumen, dan setiap instance harus diberi anotasi.
  5. Ulangi untuk setiap kolom yang ingin Anda beri label.

Berikut adalah contoh kumpulan lengkap label dengan teks yang sesuai.

Nama Label Teks
supplier_name McWilliam Piping International Piping Company
supplier_address 14368 Pipeline Ave Chino, CA 91710
invoice_id 10001
due_date 2020-01-02
line_item/description Kopling Knuckle
line_item/quantity 9
line_item/unit_price 74,43
line_item/amount 669,87
line_item/description Pipa PVC 12 Inci
line_item/quantity 7
line_item/unit_price 15,90
line_item/amount 111,30
line_item/description Pipa Tembaga
line_item/quantity 7
line_item/unit_price 91,20
line_item/amount 638,40
net_amount 1.419,57
total_tax_amount 113,57
total_amount 1.533,14
currency $
  1. Pilih Tandai sebagai Berlabel setelah Anda selesai memberi anotasi pada dokumen.

    Di tab Train, panel sebelah kiri menunjukkan bahwa 1 dokumen telah diberi label.

Menetapkan dokumen beranotasi ke set pelatihan

Setelah memberi label pada contoh dokumen ini, Anda dapat menetapkannya ke set pelatihan.

  1. Di tab Train, centang kotak Pilih Semua.

  2. Dari daftar Tetapkan ke Set, pilih Training.

Di panel sebelah kiri, Anda dapat menemukan bahwa 1 dokumen telah ditetapkan ke set pelatihan.

Mengimpor data yang sudah diberi label ke set pelatihan dan pengujian

Pelatihan ulang Document AI memerlukan minimal 10 dokumen dalam set pelatihan dan pengujian, bersama dengan 10 instance dari setiap label di setiap set.

Sebaiknya Anda memiliki minimal 50 dokumen di setiap set, dengan 50 instance dari setiap label, untuk mendapatkan performa terbaik. Makin banyak data pelatihan, umumnya makin tinggi akurasinya.

Dalam panduan ini, Anda akan diberi data yang telah diberi label. Jika mengerjakan proyek Anda sendiri, Anda harus menentukan cara memberi label pada data Anda. Lihat Opsi pelabelan.

  1. Pilih Impor dokumen.

  2. Masukkan jalur berikut di Source path. Bucket ini berisi dokumen yang telah diberi label sebelumnya dalam format JSON Dokumen.

    cloud-samples-data/documentai/Custom/Invoices/JSON
    
  3. Dari daftar Data split, pilih Auto-split. Hal ini akan otomatis membagi dokumen menjadi 80% di set pelatihan, dan 20% di set pengujian. Biarkan Impor dengan pemberian label otomatis tidak dicentang.

  4. Pilih Impor Proses impor mungkin memerlukan waktu beberapa menit. Setelah itu, Anda akan menemukan dokumen di tab Latih.

Opsional: Otomatis melabeli dokumen yang baru diimpor

Saat mengimpor dokumen yang tidak berlabel untuk prosesor dengan versi prosesor yang sudah di-deploy, Anda dapat menggunakan Pelabelan otomatis untuk menghemat waktu pelabelan.

  1. Di halaman Train, Import documents.

  2. Salin dan tempel jalur Cloud Storage berikut. Direktori ini berisi lima PDF invoice tanpa label. Dari daftar drop-down Data split, pilih Training.

    cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
    
  3. Di bagian Auto-labeling, centang kotak Import with auto-labeling.

  4. Pilih versi prosesor yang ada untuk melabeli dokumen.

    • Contoh: pretrained-invoice-v1.3-2022-07-15
  5. Pilih Impor dan tunggu hingga dokumen selesai diimpor. Anda dapat keluar dari halaman ini dan kembali lagi nanti.

    • Setelah selesai, dokumen akan muncul di halaman Train di bagian Auto-labeled.
  6. Anda tidak dapat menggunakan dokumen berlabel otomatis untuk pelatihan atau pengujian tanpa menandainya sebagai berlabel. Buka bagian Berlabel otomatis untuk melihat dokumen berlabel otomatis.

  7. Pilih dokumen pertama untuk masuk ke konsol pelabelan.

  8. Verifikasi label untuk memastikan kebenarannya. Sesuaikan jika salah.

  9. Pilih Tandai sebagai Berlabel setelah selesai.

  10. Ulangi verifikasi label untuk setiap dokumen yang diberi label otomatis, lalu kembali ke halaman Train untuk menggunakan data tersebut untuk pelatihan.

Melatih pemroses

Setelah mengimpor data pelatihan dan pengujian, Anda dapat melatih pemroses. Karena pelatihan mungkin memerlukan waktu beberapa jam, pastikan Anda telah menyiapkan prosesor dengan data dan label yang sesuai sebelum memulai pelatihan.

  1. Pilih Latih Ulang Versi Baru.

  2. Di kolom Nama versi, masukkan nama untuk versi pemroses ini, seperti invoice-uptrain-1.

  3. (Opsional) Pilih Lihat Statistik Label untuk menemukan informasi tentang label dokumen. Hal ini dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.

  4. Pilih Mulai pelatihan Anda dapat memeriksa status di panel sebelah kanan.

    Halaman Pengelolaan set data akan terbuka. Anda dapat melihat status pelatihan di sisi kanan. Pelatihan kemungkinan akan memerlukan waktu beberapa jam, bergantung pada ukuran set data Anda. Anda dapat meninggalkan halaman ini dan kembali lagi nanti.

Men-deploy versi pemroses

  1. Setelah pelatihan selesai, buka tab Kelola Versi. Anda dapat melihat detail tentang versi yang baru saja Anda latih.

  2. Pilih tiga titik vertikal di sebelah kanan versi yang ingin Anda deploy, lalu pilih Deploy version.

  3. Pilih Deploy dari jendela pop-up.

    Proses deployment memerlukan waktu beberapa menit hingga selesai.

Mengevaluasi dan menguji pemroses

  1. Setelah deployment selesai, buka tab Evaluate & Test.

    Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, Presisi, dan Recall untuk dokumen lengkap, dan masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat Mengevaluasi pemroses.

  2. Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya agar Anda dapat menggunakannya untuk mengevaluasi versi prosesor. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disisihkan untuk tujuan ini.

    Download PDF

  3. Pilih Upload Test Document , lalu pilih dokumen yang baru saja Anda download.

    Halaman Analisis Invoice Parser akan terbuka. Output layar menunjukkan seberapa baik dokumen diklasifikasikan.

    Anda juga dapat menjalankan kembali evaluasi terhadap set pengujian atau versi prosesor yang berbeda.

Menggunakan prosesor

Anda telah berhasil membuat dan melatih ulang prosesor Invoice Parser.

Anda dapat mengelola versi prosesor yang dilatih kustom seperti versi prosesor lainnya, misalnya saat bermigrasi ke prosesor yang lebih baru saat prosesor yang lama tidak digunakan lagi. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.

Anda dapat Mengirim permintaan pemrosesan ke pemroses kustom, dan respons dapat ditangani dengan cara yang sama seperti pemroses ekstraksi entitas lainnya.

Pembersihan

Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

Untuk menghindari tagihan yang tidak perlu, gunakan Google Cloud Google Cloud console untuk menghapus prosesor dan project Anda jika tidak membutuhkannya.

Jika Anda membuat project baru untuk mempelajari Document AI dan Anda tidak lagi memerlukan project tersebut, [hapus project tersebut][delete-project].

Jika Anda menggunakan project Google Cloud yang sudah ada, hapus resource yang Anda buat untuk menghindari tagihan pada akun Anda:

  1. Di Google Cloud menu navigasi konsol, pilih Document AI, lalu pilih My Processors.

  2. Pilih Tindakan lainnya di baris yang sama dengan pemroses yang ingin Anda hapus.

  3. Pilih Hapus pemroses, masukkan nama pemroses, lalu pilih Hapus lagi untuk mengonfirmasi.

Langkah berikutnya