Questa pagina illustra i passaggi per preparare un modello di IA AML, supponendo che tu abbia già configurato un'istanza e preparato i set di dati necessari.
Panoramica delle fasi
La procedura per preparare un modello è suddivisa nelle tre fasi che seguono:
Fase 1: configura un motore, inclusa la selezione dell'origine degli iperparametri:
- Ottimizzazione: ottimizzazione automatica degli iperparametri
- Eredita: eredita gli iperparametri da una configurazione del motore precedente che è stata creata con una versione precedente del motore all'interno della stessa versione di ottimizzazione. Questa impostazione ti consente di evitare di eseguire nuovamente l'ottimizzazione ogni volta che adotti una nuova versione del motore del modello.
La creazione di una configurazione dell'engine consente di memorizzare i risultati della regolazione o dell'eredità in una risorsa EngineConfig.
Fase 2: Genera un modello
La creazione di un modello attiva l'addestramento e memorizza i risultati come risorsa modello.
Fase 3: Valutare un modello
La creazione di risultati di backtest valuta le prestazioni del modello su un insieme specificato di mesi, memorizzando i risultati di riepilogo in una risorsa BacktestResult. Se vuoi, puoi anche creare risultati di previsione per valutare gli output del modello per utente.
Una volta completate le fasi precedenti e il rendimento del modello soddisfa le tue esigenze, consulta le indicazioni riportate nelle sezioni Generare punteggi di rischio e spiegabilità e Prepararsi alla governance del modello e del rischio.
Prima di iniziare
Prima di iniziare, ti serviranno:
- Uno o più set di dati
- Una versione del motore selezionata da utilizzare
Requisiti dei set di dati
Per indicazioni dettagliate sul modello dei dati e sullo schema, consulta le pagine in Preparazione dei dati per l'IA AML. Questa sezione spiega come assicurarti che i set di dati utilizzati per l'ottimizzazione, l'addestramento e la valutazione dell'engine funzionino bene insieme.
Intervalli di tempo dei set di dati
Ogni set di dati utilizzato per le operazioni di ottimizzazione, addestramento, backtesting e previsione deve contenere dati validi per un intervallo di tempo che termina alla fine dell'ultimo mese di calendario completo precedente alla data e all'ora end_time specificate nella chiamata all'API. La durata di questo intervallo di tempo dipende dalla tabella, dalla versione del motore e dall'operazione. L'intervallo di tempo minimo è descritto in dettaglio in Informazioni sull'ambito e sulla durata dei dati.
Ad esempio, per l'ottimizzazione del motore con le versioni del motore v004.004, la tabella Transaction deve coprire almeno 30 mesi.
La configurazione di un motore, l'addestramento e la valutazione (backtesting) possono essere completati con un singolo set di dati; consulta l'immagine seguente. Per garantire buone prestazioni in produzione evitando il sovraadattamento, devi assicurarti che il periodo utilizzato per la valutazione (ovvero la creazione dei risultati del backtest) sia successivo al periodo utilizzato per l'addestramento (ovvero la creazione di un modello).
Ad esempio, se utilizzi 3 periodi per il backtesting e periodi fino alla fine di febbraio 2024 per l'addestramento (ovvero l'ora di fine all'inizio di marzo 2024), puoi utilizzare periodi fino alla fine di maggio 2024 per il backtesting (ovvero l'ora di fine all'inizio di giugno 2024).
Coerenza del set di dati
Quando utilizzi set di dati diversi per le fasi di ottimizzazione, addestramento e valutazione del motore, assicurati che siano coerenti per quanto riguarda i campi che vengono compilati e il modo in cui vengono compilati. Questo è importante per la stabilità e le prestazioni del modello AML.
Analogamente, per un punteggio di rischio di alta qualità, il set di dati utilizzato per creare i risultati di previsione con un modello deve essere coerente con il set di dati utilizzato per addestrare il modello.
In particolare, assicurati che:
- Per compilare ogni campo viene utilizzata la stessa logica. La modifica della logica utilizzata per compilare un campo può introdurre uno scostamento delle funzionalità tra l'addestramento del modello e la previsione o la valutazione.
- Vengono compilati gli stessi campi CONSIGLIATI. Ad esempio, la rimozione di un campo compilato durante l'addestramento del modello può causare uno sbilanciamento o la mancanza delle funzionalità su cui si basa il modello durante la valutazione o la previsione.
Per fornire i valori viene utilizzata la stessa logica. Nella tabella PartySupplementaryData, viene utilizzata la stessa logica per fornire i valori per ogni campo
party_supplementary_data_id
.- L'utilizzo degli stessi dati, ma con valori
party_supplementary_data_id
diversi, fa sì che il modello li utilizzi in modo errato. Ad esempio, un particolar campo utilizza l'ID5
nella tabella PartySupplementaryData per un set di dati, ma poi utilizza l'ID7
in un altro set di dati. - La rimozione di un valore
party_supplementary_data_id
su cui si basa un modello può avere effetti imprevedibili. Ad esempio, l'ID3
viene utilizzato nella tabella PartySupplementaryData di un set di dati, ma viene omesso da un altro set di dati.
- L'utilizzo degli stessi dati, ma con valori
Ora hai un set di dati pronto per l'ottimizzazione, l'addestramento e la valutazione del motore. Tieni presente che le operazioni sui modelli possono richiedere decine di ore. Per informazioni su come controllare se un'operazione è ancora in esecuzione o è stata completata (non riuscita o riuscita), consulta Gestire le operazioni che richiedono molto tempo.