Mekanisme pengekstrak kustom
Anda dapat membuat ekstraktor kustom yang secara khusus cocok dengan dokumen Anda, serta dilatih dan dievaluasi dengan data Anda. Pemroses ini mengidentifikasi dan mengekstrak entitas dari dokumen Anda. Kemudian, Anda dapat menggunakan prosesor terlatih ini pada dokumen tambahan.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Membuat pemroses
Di konsol Google Cloud , di bagian Document AI, buka halaman Workbench.
Untuk pengekstraksi kustom, pilih
Buat prosesor .Di menu Buat pemroses, masukkan nama untuk pemroses Anda, seperti
my-custom-document-extractor
.Pilih wilayah yang terdekat dengan Anda.
Opsional: Buka Advanced options.
Anda memiliki opsi untuk mengizinkan Google membuat bucket Cloud Storage untuk Anda, atau Anda dapat membuat bucket Anda sendiri. Untuk tutorial ini, pilih Penyimpanan yang dikelola Google.
Anda juga memiliki opsi untuk menggunakan kunci enkripsi yang dikelola Google atau Kunci enkripsi yang dikelola pelanggan (CMEK). Untuk tutorial ini, pilih Google-managed encryption key.
Pilih Create untuk membuat pemroses.
Menentukan kolom pemroses
Sekarang Anda berada di halaman Processor overview dari prosesor yang baru saja Anda buat.

Anda dapat menentukan kolom yang ingin diekstrak oleh prosesor dan mulai memberi label pada dokumen.
Pilih tab
Mulai . Menu kolom akan muncul.Pilih Buat kolom baru.
Masukkan nama untuk kolom. Pilih Jenis data dan Kemunculan. Beri label Deskripsi yang deskriptif dan berbeda. Deskripsi properti memungkinkan Anda memberikan konteks, insight, dan pengetahuan sebelumnya tambahan untuk setiap entity guna meningkatkan akurasi dan performa ekstraksi.

- Pilih Create. Lihat Menentukan skema pemroses untuk mengetahui petunjuk mendetail tentang cara membuat dan mengedit skema.
Buat setiap label berikut untuk skema prosesor.
Nama Jenis Data Kemunculan control_number
Angka Beberapa opsi employees_social_security_number
Angka Required multiple employer_identification_number
Angka Required multiple employers_name_address_and_zip_code
Address Required multiple federal_income_tax_withheld
Money Required multiple social_security_tax_withheld
Money Required multiple social_security_wages
Money Required multiple wages_tips_other_compensation
Money Required multiple Anda juga dapat membuat dan menggunakan jenis label lainnya dalam skema pemroses Anda, seperti kotak centang dan entitas tabular. Misalnya, formulir W-2 berisi kotak centang karyawan menurut hukum, rencana pensiun, dan pembayaran sakit pihak ketiga yang juga dapat Anda tambahkan ke skema.
Mengupload dokumen contoh
Uji dengan dokumen contoh.
Pilih Upload dokumen sampel.
Di sidebar, pilih Import documents from Cloud Storage.
Untuk contoh ini, masukkan nama bucket ini di
Source path . Link ini langsung menuju ke satu dokumen.cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
Pilih Impor
Anda akan dialihkan ke konsol pelabelan.
Memberi label dokumen
Proses memilih teks dalam dokumen dan menerapkan label dikenal sebagai anotasi atau pelabelan.
Saat Anda berada di konsol pelabelan, perhatikan bahwa banyak label sudah diisi. Hal ini karena jenis model ekstraktor kustom default adalah model dasar, yang dapat melakukan prediksi zero-shot, yaitu tanpa pelatihan.
Untuk menggunakan saran label, tahan kursor di atas setiap
label di panel samping, lalu pilih tanda centang untuk mengonfirmasi bahwa label sudah benar. Jangan mengedit teks, meskipun OCR membaca teks dengan salah.Dalam contoh ini, nilai di bagian bawah dokumen tidak diidentifikasi secara otomatis, jadi Anda harus melabelinya secara manual.
Gunakan ikon di toolbar di atas dokumen untuk memberi label. Gunakan alat
kotak pembatas secara default, atau alatPilih teks untuk nilai multi-baris, guna memilih konten dan menerapkan label.Setelah teks dipilih, menu drop-down akan muncul dengan semua kolom (entitas) yang ditentukan agar Anda dapat memilih salah satunya. Dalam contoh ini, nilai
wages_tips_other_compensation
dipilih dengan alat kotak pembatas, dan label tersebut diterapkan.Tinjau nilai teks yang terdeteksi untuk memastikan bahwa nilai tersebut mencerminkan lokasi teks yang benar untuk setiap kolom. Dokumen W2 berlabel akan terlihat seperti ini setelah selesai:
Jika perlu, Anda dapat memilih
Buat kolom baru untuk menambahkan kolom baru ke skema dari halaman ini.Pilih
Tandai sebagai diberi label setelah Anda selesai memberi anotasi pada dokumen. Anda akan dialihkan ke tab Mulai.
Membangun versi pemroses menggunakan model dasar
Setelah melabeli satu dokumen, Anda dapat membuat versi pemroses menggunakan model dasar terlatih untuk mengekstrak entity.
Pilih tab
Build .Di bagian Panggil model dasar, pilih Buat versi baru.
Masukkan nama untuk versi pemroses Anda, seperti
w2-foundation-model
.Pilih Buat versi. Proses pembuatannya memerlukan waktu beberapa menit.
Opsional: pilih tab
Deploy & use . Di halaman ini, Anda dapat melihat versi pemroses yang tersedia dan status deployment versi baru.
Menggunakan AI generatif untuk memberi label dokumen secara otomatis
Model dasar dapat secara akurat mengekstrak kolom untuk berbagai jenis dokumen, tetapi Anda juga dapat memberikan data pelatihan tambahan untuk meningkatkan akurasi model untuk struktur dokumen tertentu.
Ekstraktor kustom menggunakan nama label yang Anda tentukan dan anotasi sebelumnya untuk mempermudah dan mempercepat pemberian label pada dokumen dalam skala besar dengan pemberian label otomatis.
Buka halaman
Build .Pilih
Impor dokumen .Di sidebar, pilih Import documents from Google Cloud Storage.
Masukkan nama bucket yang berisi dokumen Anda.
Dari daftar Data split, pilih Auto-split. Hal ini akan otomatis membagi dokumen menjadi 80% di set pelatihan dan 20% di set pengujian.
Di bagian Auto-labeling, centang kotak
Import with auto-labeling .Pilih versi prosesor model dasar untuk melabeli dokumen.
Pilih Impor dan tunggu hingga dokumen selesai diimpor. Anda dapat keluar dari halaman ini dan kembali lagi nanti.
Anda harus memverifikasi dokumen berlabel otomatis sebelum dapat menggunakannya untuk pelatihan atau pengujian. Pilih
Mulai pelabelan untuk melihat dokumen berlabel otomatis.Untuk menggunakan label yang disarankan, arahkan kursor ke setiap
anotasi , lalu pilih tanda centang untuk mengonfirmasi bahwa label sudah benar. Untuk tujuan pelatihan, jangan edit nilai jika tidak cocok dengan teks dokumen. Ubah kotak pembatas hanya jika teks yang salah dipilih.Pilih
Tandai sebagai diberi label setelah Anda selesai memberi anotasi pada dokumen.Ulangi untuk setiap dokumen yang diberi label otomatis.
Mengimpor dokumen pelatihan yang sudah diberi label
Buka halaman
Build .Pilih
Impor dokumen .Di sidebar, pilih Import documents from Cloud Storage.
Masukkan jalur Anda di Source path yang berisi dokumen Anda. Bucket ini harus berisi dokumen yang telah diberi label dalam format JSON Dokumen.
Dari daftar Data split, pilih Auto-split. Hal ini akan otomatis membagi dokumen dengan 80% di set pelatihan, dan 20% di set pengujian. Biarkan Impor dengan pemberian label otomatis tidak dicentang.
Pilih Impor Proses impor memerlukan waktu beberapa menit.
Opsional: Melihat dan mengelola set data
- Dari halaman Build, Anda dapat mengakses konsol
Kelola set data untuk melihat dan mengedit semua dokumen dan label dalam set data.
Prosesor berbasis model kustom pelatihan
Pelatihan mungkin memerlukan waktu beberapa jam. Pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.
Untuk mengetahui informasi tentang persyaratan set data, di bagian Latih model kustom, pilih Buat versi baru atau Lihat persyaratan lengkap. Ini bukan model AI generatif. Setidaknya diperlukan 10 instance pelatihan dan 10 instance pengujian dari setiap kolom untuk prosesor berbasis model kustom.
Di kolom Nama versi, masukkan nama untuk versi pemroses ini, seperti
w2-custom-model
.Opsional: pilih Lihat statistik label untuk menemukan informasi tentang label dokumen. Hal ini dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.
Di bagian Metode pelatihan model, pilih Berbasis model.
Pilih Mulai pelatihan. Pelatihan memerlukan waktu beberapa jam. Anda dapat menutup halaman ini dan kembali lagi nanti.
Opsional: pilih tab
Deploy & use . Di halaman ini, Anda dapat melihat versi pemroses yang tersedia dan status pelatihan versi baru.
Men-deploy versi pemroses
Setelah pelatihan selesai, pilih tab
Deploy & use .Centang kotak di sebelah kiri versi yang ingin Anda deploy, lalu pilih Deploy.
Pilih Deploy dari jendela dialog. Deployment memerlukan waktu beberapa menit.
Saat versi di-deploy, Anda dapat menetapkannya sebagai
Versi default , atau Anda dapat memberikan ID versi saat memproses dokumen dengan API.
Mengevaluasi dan menguji pemroses
Pilih tab
Evaluate untuk menguji versi pemroses. Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, presisi, dan perolehan untuk dokumen lengkap, dan masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat evaluate processor.Pilih pemilih
Versi , lalu pilih versi menggunakan model dasar.Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya agar Anda dapat menggunakannya untuk mengevaluasi versi pemroses. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disisihkan untuk tujuan ini.
Pilih
Upload Test Document , lalu pilih dokumen yang baru saja Anda download. Halaman Analisis Pengekstrak Dokumen Kustom akan terbuka. Output layar menunjukkan seberapa baik dokumen diekstrak.Uji dokumen lagi menggunakan versi dengan model yang dilatih secara kustom.
Menggunakan prosesor
Anda telah berhasil membuat dan melatih prosesor ekstraktor kustom.
Anda dapat mengelola versi prosesor yang dilatih kustom seperti versi prosesor lainnya. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.
Untuk menggunakan Document AI API:
- Ikuti contoh kode di mengirim permintaan pemrosesan
untuk menggunakan pemrosesan online atau batch.
- Lihat Kuota dan batas untuk mengetahui jumlah halaman yang didukung untuk pemrosesan online dan batch.
- Ikuti contoh kode ekstraktor kustom di Menangani respons pemrosesan untuk mendapatkan entitas yang diekstrak dari pemroses.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
Untuk menghindari tagihan yang tidak perlu, gunakan Google Cloud console untuk menghapus prosesor dan project Anda jika Anda tidak memerlukannya. Google Cloud
Jika Anda membuat project baru untuk mempelajari Document AI dan Anda tidak lagi memerlukan project tersebut, hapus project tersebut.
Jika Anda menggunakan project Google Cloud yang sudah ada, hapus resource yang Anda buat untuk menghindari tagihan pada akun Anda:
Di Google Cloud menu navigasi konsol, pilih Document AI, lalu pilih My Processors.
Pilih
Tindakan lainnya di baris yang sama dengan pemroses yang ingin Anda hapus.Pilih Hapus pemroses, masukkan nama pemroses, lalu pilih Hapus lagi untuk mengonfirmasi.
Langkah berikutnya
Untuk mengetahui detailnya, lihat Panduan.