Évaluer un modèle

Les résultats du backtest vous fournissent un résumé des performances du modèle sur une période donnée. Elles sont générées en effectuant des prédictions pour tous les clients au cours d'une période de test rétrospectif et en évaluant les performances du modèle par rapport aux événements à risque disponibles.

Les résultats du backtesting peuvent être utilisés pour mesurer les performances du modèle sur une période distincte de celle utilisée pour l'entraînement, ou au fil du temps pour vérifier la dégradation des performances.

Comment effectuer un backtest

Pour créer une ressource BacktestResult, consultez la section Créer et gérer des résultats de backtest.

Vous devez notamment sélectionner les éléments suivants:

  • Données à utiliser pour le backtesting:

    Spécifiez un ensemble de données et une heure de fin comprise dans la plage de dates de l'ensemble de données.

    La formation utilise des libellés et des fonctionnalités basés sur des mois calendaires complets jusqu'au mois de la date de fin sélectionnée, mais sans l'inclure. Pour en savoir plus, consultez la section Plages temporelles des ensembles de données.

    Spécifiez le nombre de mois de données libellées à utiliser pour le rétrotest (c'est-à-dire le nombre de périodes de rétrotest).

  • Un modèle créé à l'aide d'un ensemble de données cohérent:

    Consultez Créer un modèle.

Périodes de test rétrospectif

Le champ backtestPeriods spécifie le nombre de mois calendaires consécutifs à partir desquels utiliser des fonctionnalités et des libellés dans l'évaluation des performances de ce modèle.

Les éléments suivants s'appliquent aux données de simulation:

  • Les mois utilisés pour l'évaluation sont les mois calendaires complets les plus récents avant le endTime spécifié. Par exemple, si endTime est 2023-04-15T23:21:00Z et backtestPeriods est 5, les libellés des mois suivants sont utilisés: 2023-03, 2023-02, 2023-01, 2022-12 et 2022-11.
  • Vous devez utiliser les données les plus récentes disponibles pour le rétrocompatibilité lorsque vous évaluez un modèle en vue de son utilisation en production.
  • Les périodes de simulation doivent être définies sur 3 ou plus. Deux mois de la période de test rétrospectif sont réservés pour tenir compte des alertes répétées, et les mois restants sont utilisés pour générer des libellés positifs à des fins d'évaluation des performances.

  • Évitez d'utiliser des mois qui se chevauchent pour l'entraînement et le rétrotest, car cela risque de provoquer un surajustement. Assurez-vous que les heures de fin du backtest et de l'entraînement sont espacées d'au moins backtestPeriods. C'est-à-dire,

    (mois de fin des résultats du backtest) >= (mois de fin du modèle) +backtestPeriods

Vous pouvez également créer des résultats de prédiction pour un modèle et effectuer vos propres analyses des performances du modèle au niveau des partis.

Sortie du test rétrospectif

Les métadonnées des résultats du backtest contiennent les métriques suivantes. Plus précisément, ces métriques vous indiquent les éléments suivants:

  • Performances du modèle par rapport aux libellés d'une période distincte et pour différents volumes d'investigations ou seuils de score de risque

  • Mesures pouvant être utilisées pour évaluer la consistance de l'ensemble de données (par exemple, en comparant les valeurs de valeurs manquantes des familles d'éléments géographiques de différentes opérations)

Nom de la métrique Description de la métrique Exemple de valeur de métrique
ObservedRecallValues Métrique de rappel mesurée sur l'ensemble de données spécifié pour le rétrocompatibilité. L'API inclut 20 de ces mesures, à différents points de fonctionnement, réparties uniformément de 0 (non inclus) à 2 * partyInvestigationsPerPeriodHint. L'API ajoute une mesure de rappel finale à partyInvestigationsPerPeriodHint.
{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "scoreThreshold": 0.30,
    },
  ],
}
Données manquantes

Pourcentage de valeurs manquantes pour toutes les entités de chaque famille d'entités.

Dans l'idéal, toutes les familles de fonctionnalités d'IA AML doivent avoir un taux de données manquantes proche de 0. Des exceptions peuvent se produire lorsque les données sous-jacentes à ces familles d'éléments ne sont pas disponibles pour l'intégration.

Un changement significatif de cette valeur pour une famille de fonctionnalités entre le réglage, l'entraînement, l'évaluation et la prédiction peut indiquer une incohérence dans les ensembles de données utilisés.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
Décalage

Mesures montrant un décalage entre les ensembles de données d'entraînement et de prédiction ou de backtest. Le biais de famille indique les changements dans la distribution des valeurs des éléments d'une famille d'éléments, pondérés en fonction de l'importance de l'élément dans cette famille. "Max. biais" indique le biais maximal de n'importe quelle caractéristique de cette famille.

Les valeurs d'asymétrie varient de 0, qui représente aucun changement significatif dans la distribution des valeurs des éléments de la famille, à 1 pour le changement le plus significatif. Une valeur élevée pour l'asymétrie familiale ou l'asymétrie maximale indique un changement important de la structure de vos données, ce qui peut avoir un impact sur les performances du modèle. La valeur de biais de famille est -1 lorsque le modèle n'utilise aucune caractéristique de la famille.

Pour les valeurs de biais élevées, vous devez effectuer l'une des opérations suivantes:

  • Examinez les modifications apportées aux données utilisées par cette famille d'éléments géographiques (voir les documents d'assistance sur la gouvernance des modèles) et corrigez les problèmes liés aux données d'entrée.
  • Réentraîner un modèle avec des données plus récentes

Vous devez définir des seuils pour les actions à effectuer en fonction des valeurs de famille et de biais maximal en observant la variation naturelle des métriques de biais sur plusieurs mois.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}