Valutare un modello

I risultati del backtest forniscono un riepilogo del rendimento del modello in un determinato periodo di tempo. Vengono generati effettuando una previsione su tutti i clienti in un periodo di backtest e valutando il rendimento del modello rispetto agli eventi di rischio disponibili.

I risultati del backtest possono essere utilizzati per misurare il rendimento del modello in un intervallo di tempo diverso da quello utilizzato per l'addestramento oppure nel tempo per verificare il degrado delle prestazioni.

Come eseguire il backtest

Per creare una risorsa BacktestResult, consulta Creare e gestire i risultati del backtest.

In particolare, devi selezionare quanto segue:

  • I dati da utilizzare per il backtesting:

    Specifica un set di dati e un'ora di fine nell'intervallo di date del set di dati.

    L'addestramento utilizza etichette e funzionalità basate su mesi solari completi fino al mese dell'ora di fine selezionata, escluso. Per ulteriori informazioni, consulta la sezione Intervalli di tempo dei set di dati.

    Specifica quanti mesi di dati etichettati utilizzare per il backtesting (ovvero il numero di periodi di backtest).

  • Un modello creato utilizzando un set di dati coerente:

    Consulta Creare un modello.

Periodi di backtest

Il campo backtestPeriods specifica il numero di mesi di calendario consecutivi per i quali utilizzare funzionalità ed etichette nella valutazione del rendimento di questo modello.

Ai dati del backtest si applicano le seguenti regole:

  • I mesi utilizzati nella valutazione sono i mesi di calendario completi più recenti precedenti al giorno endTime specificato. Ad esempio, se endTime è 2023-04-15T23:21:00Z e backtestPeriods è 5, vengono utilizzate le etichette dei seguenti mesi: 2023-03, 2023-02, 2023-01, 2022-12 e 2022-11.
  • Devi utilizzare i dati disponibili più recenti per il backtesting quando valuti un modello in preparazione per l'utilizzo in produzione.
  • I periodi di backtest devono essere impostati su 3 o superiore. Due mesi del periodo di backtest sono riservati per tenere conto degli avvisi ripetuti e i mesi rimanenti vengono utilizzati per generare etichette positive per la valutazione del rendimento.

  • Evita di utilizzare mesi sovrapposti per l'addestramento e il backtesting, in quanto potresti rischiare di ottenere un overfitting. Assicurati che le ore di fine del backtest e della formazione siano distanti di almeno backtestPeriods. ovvero

    (mese di fine tempo dei risultati del backtest) >= (mese di fine tempo del modello) + backtestPeriods

Se vuoi, puoi anche creare risultati di previsione per un modello ed eseguire le tue analisi del rendimento del modello a livello di azienda.

Output del backtest

I metadati dei risultati del backtest contengono le seguenti metriche. In particolare, queste metriche mostrano quanto segue:

  • Il rendimento del modello rispetto alle etichette di un periodo di tempo distinto e per una serie di volumi di indagini o soglie di punteggio di rischio diversi

  • Misurazioni che possono essere utilizzate per valutare la coerenza del set di dati (ad esempio, confrontando i valori mancanti delle famiglie di funzionalità di operazioni diverse)

Nome metrica Descrizione della metrica Valore della metrica di esempio
ObservedRecallValues Metrica di richiamo misurata sul set di dati specificato per il backtesting. L'API include 20 di queste misurazioni, a diversi punti di funzionamento, distribuite uniformemente da 0 (non incluso) fino a 2 * partyInvestigationsPerPeriodHint. L'API aggiunge una misurazione finale del richiamo in partyInvestigationsPerPeriodHint.
{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "scoreThreshold": 0.30,
    },
  ],
}
Mancanza di dati

Percentuale di valori mancanti in tutte le funzionalità di ogni famiglia di funzionalità.

Idealmente, tutte le famiglie di funzionalità di IA AML dovrebbero avere un valore di mancante prossimo a 0. Potrebbero verificarsi eccezioni se i dati alla base di queste famiglie di funzionalità non sono disponibili per l'integrazione.

Una variazione significativa di questo valore per qualsiasi famiglia di funzionalità tra ottimizzazione, addestramento, valutazione e previsione può indicare incoerenza nei set di dati utilizzati.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
Disallineamento

Metriche che mostrano il disallineamento tra i set di dati di addestramento e di previsione o di backtest. La distorsione della famiglia indica le variazioni nella distribuzione dei valori delle caratteristiche all'interno di una famiglia di elementi, ponderati in base all'importanza della caratteristica all'interno della famiglia. La distorsione massima indica la distorsione massima di qualsiasi elemento all'interno della famiglia.

I valori di asimmetria vanno da 0, che indica nessuna variazione significativa nella distribuzione dei valori delle funzionalità della famiglia, a 1 per la variazione più significativa. Un valore elevato per la distorsione della famiglia o la distorsione massima indica una modifica significativa nella struttura dei dati in modo tale da influire sul rendimento del modello. La distorsione della famiglia assume il valore -1 quando il modello non utilizza alcuna funzionalità della famiglia.

Per valori di scostamento elevati, devi eseguire una delle seguenti operazioni:

  • Esamina le modifiche ai dati utilizzati dalla famiglia di funzionalità (consulta i materiali di assistenza per la governance del modello) e correggi eventuali problemi relativi ai dati di input
  • Riaddestrare un modello con dati più recenti

Devi impostare le soglie per intervenire sui valori di famiglia e di sbilanciamento massimo in base all'osservazione della variazione naturale delle metriche di sbilanciamento nell'arco di diversi mesi.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}