Membuat Pengklasifikasi Dokumen Kustom di konsol Google Cloud
Pengklasifikasi kustom dirancang untuk mengklasifikasikan dokumen. Pengklasifikasi ini dibangun dari awal menggunakan dokumen Anda sendiri dan kelas kustom.
Membuat pengklasifikasi kustom di konsol Google Cloud
Anda dapat membuat pengklasifikasi kustom yang secara khusus cocok dengan dokumen Anda, serta dilatih dan dievaluasi dengan data Anda. Pemroses ini mengidentifikasi kelas dokumen dari serangkaian kelas yang ditentukan pengguna. Kemudian, Anda dapat menggunakan prosesor terlatih ini pada dokumen tambahan. Biasanya, Anda akan menggunakan pengklasifikasi kustom pada dokumen yang memiliki jenis berbeda, lalu menggunakan identifikasi untuk meneruskan dokumen ke pemroses ekstraksi guna mengekstrak entitas.
Alur kerja umum untuk membuat dan menggunakan pengklasifikasi kustom adalah sebagai berikut:
- Buat pengklasifikasi kustom di Document AI.
- Buat set data menggunakan bucket Cloud Storage kosong.
- Mengimpor dokumen.
- Menganotasi dokumen secara manual di Document AI Workbench atau dengan tugas pelabelan.
- Tetapkan dokumen ke set pelatihan dan pengujian.
- Latih pemroses.
- Evaluasi pemroses.
- Deploy pemroses.
- Uji prosesor.
- Gunakan pemroses pada dokumen Anda.
Anda dapat membuat pilihan konfigurasi sendiri yang sesuai dengan alur kerja Anda.
Untuk mengikuti panduan langkah demi langkah tugas ini langsung di Google Cloud konsol, klik Pandu saya:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Membuat pemroses
1. Buka Google Cloud console, lalu pilih: WorkbenchUntuk Pengklasifikasi Dokumen Kustom, pilih
Buat prosesor .Di menu Buat pemroses, masukkan nama untuk pemroses Anda, seperti
my-custom-document-classifier
.Pilih wilayah yang terdekat dengan Anda.
Pilih Create. Tab Processor Details akan muncul.
Mengonfigurasi set data
Untuk melatih prosesor baru ini, Anda harus membuat set data dengan data pelatihan dan pengujian untuk membantu prosesor mengidentifikasi dokumen yang ingin Anda pisahkan dan klasifikasikan.
Set data ini memerlukan lokasi baru. Ini dapat berupa bucket Cloud Storage atau folder kosong, atau Anda dapat mengizinkan lokasi yang dikelola secara internal.
Setelah tab Detail Pemroses muncul, Anda dapat:
- Pilih Penyimpanan yang dikelola Google jika Anda ingin menggunakan Cloud Storage.
- Pilih Saya akan menentukan lokasi penyimpanan saya sendiri jika Anda ingin menggunakan penyimpanan Anda sendiri untuk menggunakan Kunci Enkripsi yang Dikelola Pelanggan (CMEK), dan ikuti prosedur selanjutnya.
Buat bucket Cloud Storage untuk set data
Pilih tab
Train prosesor Anda.Pilih
Setel Lokasi Set Data . Anda akan diminta untuk memilih atau membuat bucket atau folder Cloud Storage yang kosong.Pilih
Jelajahi untuk membuka Pilih folder.Pilih ikon
Buat bucket baru dan ikuti perintah untuk membuat bucket baru. Untuk mengetahui informasi selengkapnya tentang cara membuat bucket Cloud Storage, lihat Bucket Cloud Storage.Catatan: Bucket adalah entitas penyimpanan tingkat teratas, tempat Anda dapat menumpuk bertingkat folder. Daripada membuat dan memilih bucket, Anda juga dapat membuat dan memilih folder kosong di dalam bucket yang ada. Untuk mengetahui informasi selengkapnya, lihat Folder simulasi Cloud Storage.
Setelah Anda membuat bucket, halaman Select folder akan muncul untuk bucket tersebut.
Di halaman Pilih folder untuk bucket Anda, pilih tombol
Pilih di bagian bawah dialog.Pastikan jalur tujuan diisi dengan nama bucket yang Anda pilih. Pilih
Buat Set Data . Pembuatan set data dapat memerlukan waktu hingga beberapa menit.
Mengimpor dokumen ke dalam set data
Selanjutnya, Anda mengimpor dokumen ke dalam set data.
Di tab Train, pilih
Impor dokumen .Untuk contoh ini, masukkan nama bucket ini di
Source path . Link ini langsung menuju ke satu dokumen.cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
Untuk Pemisahan data, pilih Tidak ditetapkan. Dokumen dalam folder ini tidak ditetapkan ke set pengujian atau pelatihan. Biarkan Impor dengan pemberian label otomatis tidak dicentang.
Pilih Impor Document AI membaca dokumen dari bucket ke dalam set data. Tidak mengubah bucket impor atau membaca dari bucket setelah impor selesai.
Saat mengimpor dokumen, Anda dapat secara opsional menetapkan dokumen ke set Pelatihan atau Pengujian saat diimpor, atau menunggu untuk menetapkannya nanti.
Jika Anda ingin menghapus dokumen yang telah diimpor, pilih dokumen tersebut di tab Latih, lalu pilih Hapus.
Untuk mengetahui informasi selengkapnya tentang cara menyiapkan data untuk diimpor, lihat Panduan persiapan data.
Tentukan skema pemroses
Anda dapat membuat skema pemroses sebelum atau setelah mengimpor dokumen ke dalam set data. Skema ini menyediakan label yang Anda gunakan untuk menganotasi dokumen.
Di tab Latih, pilih
Edit Skema di kiri bawah. Halaman Kelola label akan terbuka.Pilih
Buat label .Masukkan nama untuk label. Pilih Jenis data. Pilih Buat. Lihat Menentukan skema pemroses untuk mengetahui petunjuk mendetail tentang cara membuat dan mengedit skema.
Buat setiap label berikut untuk skema prosesor.
Nama Data Type computer_vision
Jenis dokumen crypto
Jenis dokumen med_tech
Jenis dokumen other
Jenis dokumen Pilih
Simpan setelah label selesai.
Memberi label dokumen
Proses memilih teks dalam dokumen dan menerapkan label dikenal sebagai anotasi.
Kembali ke tab Train, lalu pilih
dokumen untuk membuka konsol Label management.Di
Document type drop-down , pilih label yang sesuai untuk dokumen.Jika Anda menggunakan dokumen contoh yang disediakan, pilih
computer_vision
.Dokumen berlabel akan terlihat seperti ini setelah selesai:
Pilih
Tandai sebagai Berlabel setelah Anda selesai memberi anotasi pada dokumen.Di tab Train, panel sebelah kiri menunjukkan bahwa 1 dokumen telah diberi label.
Menetapkan dokumen beranotasi ke set pelatihan
Setelah memberi label pada contoh dokumen ini, Anda dapat menetapkannya ke set pelatihan.
Di tab Train, centang kotak
Pilih Semua .Dari daftar
Tetapkan ke Set , pilih Training.
Di panel sebelah kiri, Anda dapat melihat bahwa 1 dokumen telah ditetapkan ke set data pelatihan.
Mengimpor data yang sudah diberi label ke set pelatihan dan pengujian
Dalam panduan ini, Anda akan diberi data yang telah diberi label.
Jika mengerjakan project sendiri, Anda harus menentukan cara memberi label pada data. Lihat Opsi pemberian label. Prosesor kustom Document AI memerlukan minimal 10 dokumen dalam set pelatihan dan pengujian, bersama dengan 10 instance dari setiap label di setiap set. Sebaiknya Anda memiliki minimal 50 dokumen di setiap set, dengan 50 instance dari setiap label untuk mendapatkan performa terbaik. Secara umum, makin banyak data pelatihan, makin tinggi akurasinya.
Pilih
Impor dokumen .Masukkan jalur berikut di
Source path . Bucket ini berisi dokumen yang telah diberi label sebelumnya dalam format JSON Dokumen.cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
Dari daftar Data split, pilih Auto-split. Hal ini akan otomatis membagi dokumen dengan 80% di set pelatihan, dan 20% di set pengujian. Abaikan bagian Terapkan label.
Pilih Impor Proses impor mungkin memerlukan waktu beberapa menit.
Setelah impor selesai, Anda dapat menemukan dokumen di tab Train.
Opsional: Melabeli dokumen secara berkelompok saat mengimpor
Setelah skema dikonfigurasi, Anda dapat memberi label pada semua dokumen yang ada di direktori tertentu saat mengimpor untuk menghemat waktu pelabelan.
Pilih
Impor dokumen .Masukkan jalur berikut di
Source path . Bucket ini berisi dokumen tanpa label dalam format PDF.cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
Dari daftar Data split, pilih Auto-split. Hal ini akan otomatis membagi dokumen dengan 80% di set pelatihan, dan 20% di set pengujian.
Di bagian Terapkan label, pilih Pilih label.
Untuk dokumen contoh ini, pilih
other
.Pilih Impor dan tunggu hingga proses selesai. Anda dapat meninggalkan halaman ini dan kembali lagi nanti. Setelah selesai, Anda akan menemukan dokumen di tab Train dengan label yang diterapkan.
Melatih pemroses
Setelah mengimpor data pelatihan dan pengujian, Anda dapat melatih prosesor. Karena pelatihan mungkin memerlukan waktu beberapa jam, pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.
Pilih
Train New Version .Di kolom
Nama versi , masukkan nama untuk versi pemroses ini, sepertimy-cdc-version-1
.(Opsional) Pilih Lihat Statistik Label untuk menemukan informasi tentang label dokumen. Hal ini dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.
Pilih
Mulai pelatihan Anda dapat memeriksa status di panel sebelah kanan.
Men-deploy versi pemroses
Setelah pelatihan selesai, buka tab
Kelola Versi . Anda dapat melihat detail tentang versi yang baru saja Anda latih.Pilih
tiga titik vertikal di sebelah kanan versi yang ingin Anda deploy, lalu pilih Deploy version.Pilih
Deploy dari jendela pop-up.Proses deployment memerlukan waktu beberapa menit hingga selesai.
Mengevaluasi dan menguji pemroses
Setelah deployment selesai, buka tab
Evaluate & Test .Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, Presisi, dan Recall untuk dokumen lengkap, dan masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat Mengevaluasi prosesor.
Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya agar Anda dapat menggunakannya untuk mengevaluasi versi pemroses. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disisihkan untuk tujuan ini.
Pilih
Upload Test Document , lalu pilih dokumen yang baru saja Anda download.Halaman Analisis Pengklasifikasi Dokumen Kustom akan terbuka. Output menunjukkan seberapa baik dokumen diklasifikasikan.
Anda juga dapat menjalankan kembali evaluasi terhadap set pengujian atau versi prosesor yang berbeda.
Opsional: Otomatis melabeli dokumen yang baru diimpor
Setelah menerapkan versi prosesor terlatih, Anda dapat menggunakan Pelabelan otomatis untuk menghemat waktu pelabelan saat mengimpor dokumen baru.
Di halaman Train,
Impor dokumen .Salin dan tempel jalur Cloud Storage berikut. Direktori ini berisi 5 PDF Paten tanpa label. Dari daftar dropdown Data split, pilih Training.
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
Di bagian Terapkan label, pilih Pemberian label otomatis.
Pilih versi prosesor yang ada untuk melabeli dokumen.
- Contoh:
2af620b2fd4d1fcf
- Contoh:
Pilih Impor dan tunggu hingga proses selesai. Anda dapat meninggalkan halaman ini dan kembali lagi nanti. Setelah selesai, dokumen akan muncul di bagian Auto-labeled di halaman Train.
Anda tidak dapat menggunakan dokumen berlabel otomatis untuk pelatihan atau pengujian tanpa menandainya sebagai berlabel. Buka bagian
Berlabel otomatis untuk melihat dokumen berlabel otomatis.Pilih dokumen pertama untuk masuk ke konsol pelabelan.
Verifikasi label untuk memastikan kebenarannya. Sesuaikan jika salah.
Pilih
Tandai sebagai Berlabel setelah selesai.Ulangi verifikasi label untuk setiap dokumen yang diberi label otomatis, lalu kembali ke halaman Train untuk menggunakan data tersebut untuk pelatihan.
Menggunakan prosesor
Anda telah berhasil membuat dan melatih prosesor Pengklasifikasi Dokumen Kustom.
Anda dapat mengelola versi pemroses yang dilatih kustom seperti versi pemroses lainnya. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.
Anda dapat Mengirim permintaan pemrosesan ke prosesor kustom, dan respons dapat ditangani dengan cara yang sama seperti prosesor pengklasifikasi lainnya.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
Untuk menghindari tagihan yang tidak perlu, gunakan Google Cloud console untuk menghapus prosesor dan project Anda jika Anda tidak memerlukannya. Google Cloud
Jika Anda membuat project baru untuk mempelajari Document AI dan Anda tidak lagi memerlukan project tersebut, hapus project tersebut.
Jika Anda menggunakan project Google Cloud yang sudah ada, hapus resource yang Anda buat untuk menghindari tagihan pada akun Anda:
Di menu navigasi konsol Google Cloud , pilih Document AI, lalu My Processors.
Pilih
Tindakan lainnya di baris yang sama dengan pemroses yang ingin Anda hapus.Pilih Hapus pemroses, masukkan nama pemroses, lalu pilih Hapus lagi untuk mengonfirmasi.
Langkah berikutnya
- Untuk mengetahui detail selengkapnya, lihat Panduan.
- Tinjau daftar pemroses.
- Pisahkan dokumen menjadi bagian-bagian yang mudah dibaca dengan Layout Parser.
- Gunakan Enterprise Document OCR untuk mendeteksi dan mengekstrak teks.