Panoramica della preparazione del modello

Questa pagina illustra i passaggi per preparare un modello di IA AML, supponendo che tu abbia già configurato un'istanza e preparato i set di dati necessari.

Panoramica delle fasi

La procedura per preparare un modello è suddivisa nelle tre fasi che seguono:

Una volta completate le fasi precedenti e il rendimento del modello soddisfa le tue esigenze, consulta le indicazioni riportate nelle sezioni Generare punteggi di rischio e spiegabilità e Prepararsi alla governance del modello e del rischio.

Prima di iniziare

Prima di iniziare, ti serviranno:

Requisiti dei set di dati

Per indicazioni dettagliate sul modello dei dati e sullo schema, consulta le pagine in Preparazione dei dati per l'IA AML. Questa sezione spiega come assicurarti che i set di dati utilizzati per l'ottimizzazione, l'addestramento e la valutazione dell'engine funzionino bene insieme.

Intervalli di tempo dei set di dati

Ogni set di dati utilizzato per le operazioni di ottimizzazione, addestramento, backtesting e previsione deve contenere dati validi per un intervallo di tempo che termina alla fine dell'ultimo mese di calendario completo precedente alla data e all'ora end_time specificate nella chiamata all'API. La durata di questo intervallo di tempo dipende dalla tabella, dalla versione del motore e dall'operazione. L'intervallo di tempo minimo è descritto in dettaglio in Informazioni sull'ambito e sulla durata dei dati.

Ad esempio, per l'ottimizzazione del motore con le versioni del motore v004.004, la tabella Transaction deve coprire almeno 30 mesi.

La configurazione di un motore, l'addestramento e la valutazione (backtesting) possono essere completati con un singolo set di dati; consulta l'immagine seguente. Per garantire buone prestazioni in produzione evitando il sovraadattamento, devi assicurarti che il periodo utilizzato per la valutazione (ovvero la creazione dei risultati del backtest) sia successivo al periodo utilizzato per l'addestramento (ovvero la creazione di un modello).

Ad esempio, se utilizzi 3 periodi per il backtesting e periodi fino alla fine di febbraio 2024 per l'addestramento (ovvero l'ora di fine all'inizio di marzo 2024), puoi utilizzare periodi fino alla fine di maggio 2024 per il backtesting (ovvero l'ora di fine all'inizio di giugno 2024).

Intervalli di tempo dei set di dati per l'ottimizzazione, l'addestramento e il backtesting

Coerenza del set di dati

Quando utilizzi set di dati diversi per le fasi di ottimizzazione, addestramento e valutazione del motore, assicurati che siano coerenti per quanto riguarda i campi che vengono compilati e il modo in cui vengono compilati. Questo è importante per la stabilità e le prestazioni del modello AML.

Analogamente, per un punteggio di rischio di alta qualità, il set di dati utilizzato per creare i risultati di previsione con un modello deve essere coerente con il set di dati utilizzato per addestrare il modello.

In particolare, assicurati che:

  • Per compilare ogni campo viene utilizzata la stessa logica. La modifica della logica utilizzata per compilare un campo può introdurre uno scostamento delle funzionalità tra l'addestramento del modello e la previsione o la valutazione.
  • Vengono compilati gli stessi campi CONSIGLIATI. Ad esempio, la rimozione di un campo compilato durante l'addestramento del modello può causare uno sbilanciamento o la mancanza delle funzionalità su cui si basa il modello durante la valutazione o la previsione.
  • Per fornire i valori viene utilizzata la stessa logica. Nella tabella PartySupplementaryData, viene utilizzata la stessa logica per fornire i valori per ogni campo party_supplementary_data_id.

    • L'utilizzo degli stessi dati, ma con valori party_supplementary_data_id diversi, fa sì che il modello li utilizzi in modo errato. Ad esempio, un particolar campo utilizza l'ID 5 nella tabella PartySupplementaryData per un set di dati, ma poi utilizza l'ID 7 in un altro set di dati.
    • La rimozione di un valore party_supplementary_data_id su cui si basa un modello può avere effetti imprevedibili. Ad esempio, l'ID 3 viene utilizzato nella tabella PartySupplementaryData di un set di dati, ma viene omesso da un altro set di dati.

Ora hai un set di dati pronto per l'ottimizzazione, l'addestramento e la valutazione del motore. Tieni presente che le operazioni sui modelli possono richiedere decine di ore. Per informazioni su come controllare se un'operazione è ancora in esecuzione o è stata completata (non riuscita o riuscita), consulta Gestire le operazioni che richiedono molto tempo.