Backtest-Ergebnisse enthalten eine Zusammenfassung der Modellleistung in einem bestimmten Zeitraum. Sie werden generiert, indem für alle Kunden innerhalb eines Backtestzeitraums eine Vorhersage erstellt und die Modellleistung anhand der verfügbaren Risikoereignisse bewertet wird.
Mit Backtest-Ergebnissen lässt sich die Modellleistung in einem anderen Zeitraum als dem für das Training gemessen oder im Zeitverlauf auf Leistungseinbußen überprüft werden.
Backtest
Informationen zum Erstellen einer BacktestResult-Ressource finden Sie unter Backtestergebnisse erstellen und verwalten.
Insbesondere müssen Sie Folgendes auswählen:
Daten für das Backtesting:
Geben Sie einen Datensatz und eine Endzeit innerhalb des Zeitraums des Datensatzes an.
Für die Ausbildung werden Labels und Funktionen für vollständige Kalendermonate bis zum Monat des ausgewählten Endzeitpunkts verwendet, dieser Monat ist jedoch nicht inbegriffen. Weitere Informationen finden Sie unter Zeiträume für Datasets.
Geben Sie an, wie viele Monate an beschrifteten Daten für das Back-Test verwendet werden sollen (d. h. die Anzahl der Back-Test-Perioden).
Ein Modell, das mit einem konsistenten Dataset erstellt wurde:
Weitere Informationen finden Sie unter Modell erstellen.
Backtest-Zeiträume
Im Feld backtestPeriods
wird angegeben, für wie viele aufeinanderfolgende Kalendermonate Funktionen und Labels bei der Leistungsbewertung dieses Modells verwendet werden sollen.
Für Backtest-Daten gilt Folgendes:
- Die für die Bewertung verwendeten Monate sind die letzten vollständigen Kalendermonate vor dem angegebenen
endTime
. WennendTime
beispielsweise2023-04-15T23:21:00Z
undbacktestPeriods
5
ist, werden die Labels der folgenden Monate verwendet: 2023-03, 2023-02, 2023-01, 2022-12 und 2022-11. - Sie sollten die neuesten verfügbaren Daten für Backtests verwenden, wenn Sie ein Modell zur Vorbereitung auf die Produktionsnutzung bewerten.
Backtestzeiträume müssen mindestens
3
betragen. Zwei Monate des Backtests sind für wiederholte Benachrichtigungen reserviert. In den verbleibenden Monaten werden positive Labels für die Leistungsbewertung generiert.Verwenden Sie keine sich überschneidenden Monate für Training und Backtesting, da dies zu Überanpassung führen kann. Die Endzeiten von Backtest und Training müssen mindestens
backtestPeriods
auseinanderliegen. Das bedeutet:(Monat des Endzeitpunkts der Backtestergebnisse) >= (Monat des Endzeitpunkts des Modells) +
backtestPeriods
Optional können Sie auch Vorhersageergebnisse für ein Modell erstellen und eigene Analysen der Modellleistung auf Parteiebene durchführen.
Backtest-Ausgabe
Die Metadaten der Backtest-Ergebnisse enthalten die folgenden Messwerte. Insbesondere sehen Sie anhand dieser Messwerte Folgendes:
Die Leistung des Modells im Vergleich zu Labels aus einem anderen Zeitraum und für verschiedene Untersuchungsvolumina oder Grenzwerte für den Risikowert
Messwerte, mit denen die Datensatzkonsistenz bewertet werden kann (z. B. durch Vergleich der Werte für fehlende Werte von Featurefamilien aus verschiedenen Vorgängen)
Messwertname | Beschreibung des Messwerts | Beispiel für einen Messwert |
---|---|---|
ObservedRecallValues | Die Trefferquote, gemessen am für das Backtesting angegebenen Datensatz. Die API enthält 20 dieser Messungen an verschiedenen Betriebspunkten, gleichmäßig verteilt von 0 (nicht enthalten) bis 2 × partyInvestigationsPerPeriodHint . Die API fügt bei partyInvestigationsPerPeriodHint eine abschließende Erinnerungsmessung hinzu.
|
{ "recallValues": [ { "partyInvestigationsPerPeriod": 5000, "recallValue": 0.80, "scoreThreshold": 0.42, }, ... ... { "partyInvestigationsPerPeriod": 8000, "recallValue": 0.85, "scoreThreshold": 0.30, }, ], } |
Fehlende Werte |
Anteil der fehlenden Werte bei allen Features in jeder Feature-Familie. Idealerweise sollte der Wert für alle AML-KI-Funktionsfamilien nahe 0 liegen. Ausnahmen können auftreten, wenn die Daten, die diesen Funktionsfamilien zugrunde liegen, nicht für die Einbindung verfügbar sind. Eine erhebliche Änderung dieses Werts für eine beliebige Funktionsfamilie zwischen Optimierung, Training, Bewertung und Vorhersage kann auf Inkonsistenzen in den verwendeten Datensätzen hinweisen. |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "missingnessValue": 0.00, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "missingnessValue": 0.45, }, ], } |
Schiefe |
Messwerte, die eine Abweichung zwischen Trainings- und Vorhersage- oder Backtest-Datasets zeigen. Die Abweichung der Familie gibt Änderungen bei der Verteilung der Feature-Werte innerhalb einer Feature-Familie an, gewichtet nach der Wichtigkeit des Features innerhalb dieser Familie. „Max. Schiefe“ gibt die maximale Schiefe eines Elements innerhalb dieser Familie an. Die Werte für die Schiefe reichen von 0, was keine signifikante Änderung bei der Verteilung der Werte der Features in der Familie bedeutet, bis 1 für die stärkste Änderung. Ein hoher Wert für „Familienabweichung“ oder „Maximale Abweichung“ weist auf eine erhebliche Änderung der Struktur Ihrer Daten hin, die sich auf die Modellleistung auswirken kann. Für die Familienasymmetrie wird der Wert „-1“ verwendet, wenn keine Merkmale der Familie vom Modell verwendet werden. Bei großen Schiefewerten sollten Sie einen der folgenden Schritte ausführen:
Sie sollten Schwellenwerte für Maßnahmen bei Werten für die Familien- und die maximale Schiefe festlegen, die auf der natürlichen Schwankung der Schiefemesswerte über mehrere Monate basieren. |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "familySkewValue": 0.10, "maxSkewValue": 0.14, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "familySkewValue": 0.11, "maxSkewValue": 0.11, }, ], } |