Mekanisme pengekstrak kustom

Anda dapat membuat ekstraktor kustom yang secara khusus cocok dengan dokumen Anda, serta dilatih dan dievaluasi dengan data Anda. Pemroses ini mengidentifikasi dan mengekstrak entitas dari dokumen Anda. Kemudian, Anda dapat menggunakan prosesor terlatih ini pada dokumen tambahan.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

Membuat pemroses

  1. Di konsol Google Cloud , di bagian Document AI, buka halaman Workbench.

    Workbench

  2. Untuk pengekstraksi kustom, pilih Buat prosesor.

    updated-cde-2.0-path-to-docai-1

  3. Di menu Buat pemroses, masukkan nama untuk pemroses Anda, seperti my-custom-document-extractor.

    updated-cde-2.0-path-to-docai-2

  4. Pilih wilayah yang terdekat dengan Anda.

  5. Opsional: Buka Advanced options.

    • Anda memiliki opsi untuk mengizinkan Google membuat bucket Cloud Storage untuk Anda, atau Anda dapat membuat bucket Anda sendiri. Untuk tutorial ini, pilih Penyimpanan yang dikelola Google.

    • Anda juga memiliki opsi untuk menggunakan kunci enkripsi yang dikelola Google atau Kunci enkripsi yang dikelola pelanggan (CMEK). Untuk tutorial ini, pilih Google-managed encryption key.

  6. Pilih Create untuk membuat pemroses.

Menentukan kolom pemroses

Sekarang Anda berada di halaman Processor overview dari prosesor yang baru saja Anda buat.

updated-cde-2.0-path-to-docai-3

Anda dapat menentukan kolom yang ingin diekstrak oleh prosesor dan mulai memberi label pada dokumen.

  1. Pilih tab Mulai. Menu kolom akan muncul.

  2. Pilih Buat kolom baru.

  3. Masukkan nama untuk kolom. Pilih Jenis data dan Kemunculan. Beri label Deskripsi yang deskriptif dan berbeda. Deskripsi properti memungkinkan Anda memberikan konteks, insight, dan pengetahuan sebelumnya tambahan untuk setiap entity guna meningkatkan akurasi dan performa ekstraksi.

updated-cde-2.0-path-to-docai-9
  1. Pilih Create. Lihat Menentukan skema pemroses untuk mengetahui petunjuk mendetail tentang cara membuat dan mengedit skema.
  1. Buat setiap label berikut untuk skema prosesor.

    Nama Jenis Data Kemunculan
    control_number Angka Beberapa opsi
    employees_social_security_number Angka Required multiple
    employer_identification_number Angka Required multiple
    employers_name_address_and_zip_code Address Required multiple
    federal_income_tax_withheld Money Required multiple
    social_security_tax_withheld Money Required multiple
    social_security_wages Money Required multiple
    wages_tips_other_compensation Money Required multiple

    Anda juga dapat membuat dan menggunakan jenis label lainnya dalam skema pemroses Anda, seperti kotak centang dan entitas tabular. Misalnya, formulir W-2 berisi kotak centang karyawan menurut hukum, rencana pensiun, dan pembayaran sakit pihak ketiga yang juga dapat Anda tambahkan ke skema.

    updated-cde-2.0-path-to-docai-4

Mengupload dokumen contoh

Uji dengan dokumen contoh.

  1. Pilih Upload dokumen sampel.

  2. Di sidebar, pilih Import documents from Cloud Storage.

  3. Untuk contoh ini, masukkan nama bucket ini di Source path. Link ini langsung menuju ke satu dokumen.

    cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
    
  4. Pilih Impor

Anda akan dialihkan ke konsol pelabelan.

Memberi label dokumen

Proses memilih teks dalam dokumen dan menerapkan label dikenal sebagai anotasi atau pelabelan.

  1. Saat Anda berada di konsol pelabelan, perhatikan bahwa banyak label sudah diisi. Hal ini karena jenis model ekstraktor kustom default adalah model dasar, yang dapat melakukan prediksi zero-shot, yaitu tanpa pelatihan.

    updated-cde-2.0-path-to-docai-5

  2. Untuk menggunakan saran label, tahan kursor di atas setiap label di panel samping, lalu pilih tanda centang untuk mengonfirmasi bahwa label sudah benar. Jangan mengedit teks, meskipun OCR membaca teks dengan salah.

  3. Dalam contoh ini, nilai di bagian bawah dokumen tidak diidentifikasi secara otomatis, jadi Anda harus melabelinya secara manual.

  4. Gunakan ikon di toolbar di atas dokumen untuk memberi label. Gunakan alat kotak pembatas secara default, atau alat Pilih teks untuk nilai multi-baris, guna memilih konten dan menerapkan label.

  5. Setelah teks dipilih, menu drop-down akan muncul dengan semua kolom (entitas) yang ditentukan agar Anda dapat memilih salah satunya. Dalam contoh ini, nilai wages_tips_other_compensation dipilih dengan alat kotak pembatas, dan label tersebut diterapkan.

    updated-cde-2.0-path-to-docai-6

  6. Tinjau nilai teks yang terdeteksi untuk memastikan bahwa nilai tersebut mencerminkan lokasi teks yang benar untuk setiap kolom. Dokumen W2 berlabel akan terlihat seperti ini setelah selesai:

    updated-cde-2.0-path-to-docai-7

  7. Jika perlu, Anda dapat memilih Buat kolom baru untuk menambahkan kolom baru ke skema dari halaman ini.

  8. Pilih Tandai sebagai diberi label setelah Anda selesai memberi anotasi pada dokumen. Anda akan dialihkan ke tab Mulai.

Membangun versi pemroses menggunakan model dasar

Setelah melabeli satu dokumen, Anda dapat membuat versi pemroses menggunakan model dasar terlatih untuk mengekstrak entity.

  1. Pilih tab Build.

    updated-cde-2.0-path-to-docai-8

  2. Di bagian Panggil model dasar, pilih Buat versi baru.

  3. Masukkan nama untuk versi pemroses Anda, seperti w2-foundation-model.

  4. Pilih Buat versi. Proses pembuatannya memerlukan waktu beberapa menit.

  5. Opsional: pilih tab Deploy & use. Di halaman ini, Anda dapat melihat versi pemroses yang tersedia dan status deployment versi baru.

Menggunakan AI generatif untuk memberi label dokumen secara otomatis

Model dasar dapat secara akurat mengekstrak kolom untuk berbagai jenis dokumen, tetapi Anda juga dapat memberikan data pelatihan tambahan untuk meningkatkan akurasi model untuk struktur dokumen tertentu.

Ekstraktor kustom menggunakan nama label yang Anda tentukan dan anotasi sebelumnya untuk mempermudah dan mempercepat pemberian label pada dokumen dalam skala besar dengan pemberian label otomatis.

  1. Buka halaman Build.

  2. Pilih Impor dokumen.

  3. Di sidebar, pilih Import documents from Google Cloud Storage.

  4. Masukkan nama bucket yang berisi dokumen Anda.

  5. Dari daftar Data split, pilih Auto-split. Hal ini akan otomatis membagi dokumen menjadi 80% di set pelatihan dan 20% di set pengujian.

  6. Di bagian Auto-labeling, centang kotak Import with auto-labeling.

  7. Pilih versi prosesor model dasar untuk melabeli dokumen.

  8. Pilih Impor dan tunggu hingga dokumen selesai diimpor. Anda dapat keluar dari halaman ini dan kembali lagi nanti.

  9. Anda harus memverifikasi dokumen berlabel otomatis sebelum dapat menggunakannya untuk pelatihan atau pengujian. Pilih Mulai pelabelan untuk melihat dokumen berlabel otomatis.

  10. Untuk menggunakan label yang disarankan, arahkan kursor ke setiap anotasi, lalu pilih tanda centang untuk mengonfirmasi bahwa label sudah benar. Untuk tujuan pelatihan, jangan edit nilai jika tidak cocok dengan teks dokumen. Ubah kotak pembatas hanya jika teks yang salah dipilih.

  11. Pilih Tandai sebagai diberi label setelah Anda selesai memberi anotasi pada dokumen.

  12. Ulangi untuk setiap dokumen yang diberi label otomatis.

Mengimpor dokumen pelatihan yang sudah diberi label

  1. Buka halaman Build.

  2. Pilih Impor dokumen.

  3. Di sidebar, pilih Import documents from Cloud Storage.

  4. Masukkan jalur Anda di Source path yang berisi dokumen Anda. Bucket ini harus berisi dokumen yang telah diberi label dalam format JSON Dokumen.

  5. Dari daftar Data split, pilih Auto-split. Hal ini akan otomatis membagi dokumen dengan 80% di set pelatihan, dan 20% di set pengujian. Biarkan Impor dengan pemberian label otomatis tidak dicentang.

  6. Pilih Impor Proses impor memerlukan waktu beberapa menit.

Opsional: Melihat dan mengelola set data

  1. Dari halaman Build, Anda dapat mengakses konsol Kelola set data untuk melihat dan mengedit semua dokumen dan label dalam set data.

Prosesor berbasis model kustom pelatihan

Pelatihan mungkin memerlukan waktu beberapa jam. Pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.

  1. Untuk mengetahui informasi tentang persyaratan set data, di bagian Latih model kustom, pilih Buat versi baru atau Lihat persyaratan lengkap. Ini bukan model AI generatif. Setidaknya diperlukan 10 instance pelatihan dan 10 instance pengujian dari setiap kolom untuk prosesor berbasis model kustom.

  2. Di kolom Nama versi, masukkan nama untuk versi pemroses ini, seperti w2-custom-model.

  3. Opsional: pilih Lihat statistik label untuk menemukan informasi tentang label dokumen. Hal ini dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.

  4. Di bagian Metode pelatihan model, pilih Berbasis model.

  5. Pilih Mulai pelatihan. Pelatihan memerlukan waktu beberapa jam. Anda dapat menutup halaman ini dan kembali lagi nanti.

  6. Opsional: pilih tab Deploy & use. Di halaman ini, Anda dapat melihat versi pemroses yang tersedia dan status pelatihan versi baru.

Men-deploy versi pemroses

  1. Setelah pelatihan selesai, pilih tab Deploy & use.

  2. Centang kotak di sebelah kiri versi yang ingin Anda deploy, lalu pilih Deploy.

  3. Pilih Deploy dari jendela dialog. Deployment memerlukan waktu beberapa menit.

  4. Saat versi di-deploy, Anda dapat menetapkannya sebagai Versi default, atau Anda dapat memberikan ID versi saat memproses dokumen dengan API.

Mengevaluasi dan menguji pemroses

  1. Pilih tab Evaluate untuk menguji versi pemroses. Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, presisi, dan perolehan untuk dokumen lengkap, dan masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat evaluate processor.

  2. Pilih pemilih Versi, lalu pilih versi menggunakan model dasar.

  3. Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya agar Anda dapat menggunakannya untuk mengevaluasi versi pemroses. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disisihkan untuk tujuan ini.

    Download PDF

  4. Pilih Upload Test Document, lalu pilih dokumen yang baru saja Anda download. Halaman Analisis Pengekstrak Dokumen Kustom akan terbuka. Output layar menunjukkan seberapa baik dokumen diekstrak.

  5. Uji dokumen lagi menggunakan versi dengan model yang dilatih secara kustom.

Menggunakan prosesor

Anda telah berhasil membuat dan melatih prosesor ekstraktor kustom.

Anda dapat mengelola versi prosesor yang dilatih kustom seperti versi prosesor lainnya. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.

Untuk menggunakan Document AI API:

Pembersihan

Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

Untuk menghindari tagihan yang tidak perlu, gunakan Google Cloud console untuk menghapus prosesor dan project Anda jika Anda tidak memerlukannya. Google Cloud

Jika Anda membuat project baru untuk mempelajari Document AI dan Anda tidak lagi memerlukan project tersebut, hapus project tersebut.

Jika Anda menggunakan project Google Cloud yang sudah ada, hapus resource yang Anda buat untuk menghindari tagihan pada akun Anda:

  1. Di Google Cloud menu navigasi konsol, pilih Document AI, lalu pilih My Processors.

  2. Pilih Tindakan lainnya di baris yang sama dengan pemroses yang ingin Anda hapus.

  3. Pilih Hapus pemroses, masukkan nama pemroses, lalu pilih Hapus lagi untuk mengonfirmasi.

Langkah berikutnya

Untuk mengetahui detailnya, lihat Panduan.