Halaman ini akan memandu Anda melakukan langkah-langkah untuk menyiapkan model AML AI, dengan asumsi Anda telah menyiapkan instance dan menyiapkan set data yang diperlukan.
Ringkasan tahapan
Proses untuk menyiapkan model dibahas dalam tiga tahap berikut:
Tahap 1: Mengonfigurasi mesin, termasuk memilih sumber hyperparameter:
- Penyesuaian: Penyesuaian hyperparameter otomatis
- Wariskan: Mewarisi hyperparameter dari konfigurasi mesin sebelumnya yang dibuat dengan versi mesin sebelumnya dalam versi penyesuaian yang sama. Setelan ini memungkinkan Anda menghindari penyesuaian ulang setiap kali Anda mengadopsi versi mesin model baru.
Membuat konfigurasi mesin akan menyimpan hasil dari penyesuaian atau pewarisan di resource EngineConfig.
Tahap 2: Buat model
Membuat model akan memicu pelatihan, yang menyimpan hasilnya sebagai Resource model.
Tahap 3: Evaluasi model
Membuat hasil backtest mengevaluasi performa model pada serangkaian bulan yang ditentukan, menyimpan hasil ringkasan dalam resource BacktestResult. Secara opsional, membuat hasil prediksi memungkinkan Anda mengevaluasi output per pihak untuk model tersebut.
Setelah Anda menyelesaikan tahap-tahap di atas dan performa model memenuhi kebutuhan Anda, lihat panduan di bagian Membuat skor dan penjelasan risiko serta Menyiapkan tata kelola model dan risiko.
Sebelum memulai
Sebelum memulai, Anda akan memerlukan hal berikut:
- Satu atau beberapa set data
- Versi mesin yang dipilih untuk digunakan
Persyaratan set data
Untuk panduan mendetail tentang model dan skema data, lihat halaman di bagian Menyiapkan Data untuk AML AI. Bagian ini membahas cara memastikan bahwa set data yang digunakan dalam penyesuaian mesin, pelatihan, dan evaluasi bekerja sama dengan baik.
Rentang waktu set data
Rentang waktu minimum set data untuk setiap operasi dibahas dalam bagian Memahami cakupan dan durasi data. Singkatnya, periode lihat balik 0 hingga 24 bulan diperlukan bergantung pada tabel, di atas periode waktu inti minimal 18 bulan.
Misalnya, untuk penyesuaian mesin, tabel Transaksi harus mencakup setidaknya 42 bulan (periode waktu inti 18 bulan dan 24 bulan untuk periode lihat balik).
Mengonfigurasi mesin, pelatihan, dan evaluasi (pengujian ulang) dapat diselesaikan dengan satu set data; lihat gambar berikut. Untuk memastikan performa produksi yang baik dengan menghindari overfitting, Anda harus menggunakan periode waktu inti untuk evaluasi (yaitu, membuat hasil backtest) yang terpisah dan lebih baru daripada periode waktu inti untuk pelatihan (yaitu, membuat model).
Konsistensi set data
Saat menggunakan set data yang berbeda untuk tahap penyesuaian, pelatihan, dan evaluasi mesin, buat set data yang konsisten di kolom mana yang akan diisi dan cara pengisiannya. Hal ini penting untuk stabilitas dan performa model AML.
Demikian pula, untuk skor risiko berkualitas tinggi, set data yang digunakan untuk membuat hasil prediksi dengan model harus konsisten dengan set data yang digunakan untuk melatih model tersebut.
Secara khusus, pastikan hal-hal berikut:
- Logika yang sama digunakan untuk mengisi setiap kolom. Mengubah logika yang digunakan untuk mengisi kolom dapat menyebabkan bias fitur antara pelatihan model dan prediksi atau evaluasi.
- Pilihan kolom yang REKOMENDASI yang sama akan diisi. Misalnya, menghapus kolom yang diisi selama pelatihan model dapat menyebabkan fitur yang diandalkan model menjadi miring atau hilang selama evaluasi atau prediksi.
Logika yang sama digunakan untuk memberikan nilai. Pada tabel PartySupplementaryData, logika yang sama digunakan untuk memberikan nilai bagi setiap kolom
party_supplementary_data_id
.- Menggunakan data yang sama, tetapi dengan nilai
party_supplementary_data_id
yang berbeda, menyebabkan model menggunakan data dengan tidak benar. Misalnya, kolom tertentu menggunakan ID5
di tabel PartySupplementaryData untuk satu set data, tetapi kemudian menggunakan ID7
di set data lain. - Menghapus nilai
party_supplementary_data_id
yang diandalkan model mungkin memiliki efek yang tidak dapat diprediksi. Misalnya, ID3
digunakan dalam tabel PartySupplementaryData dalam satu set data, tetapi dihapus dari set data lain.
- Menggunakan data yang sama, tetapi dengan nilai
Sekarang Anda memiliki set data yang siap untuk penyesuaian, pelatihan, dan evaluasi mesin. Perhatikan bahwa operasi model dapat memerlukan waktu puluhan jam. Untuk informasi cara memeriksa apakah operasi masih berjalan atau telah selesai (gagal atau berhasil), lihat Mengelola operasi yang berjalan lama.