本頁面簡要介紹模型訓練背後的概念。AML AI 模型資源代表經過訓練的模型,可用於產生風險分數和可解釋性。
訓練或重新訓練的時機
AML AI 會在建立模型資源時訓練模型。模型必須經過訓練,才能進行評估 (即回測) 或用於產生預測結果。
為取得最佳效能並維持最新的模型,建議您每月重新訓練模型。不過,特定引擎版本會在推出較新的子引擎版本後,支援產生預測結果 12 個月。
訓練方式
如要訓練模型 (也就是建立模型),請參閱「建立及管理模型」。
具體來說,您需要選取下列項目:
用於訓練的資料:
指定資料集和資料集的結束時間。
訓練會使用標記和功能,以完整的日曆月為單位,但不包含所選結束時間的月份。詳情請參閱「資料集時間範圍」。
使用一致資料集建立的引擎設定:
請參閱「設定引擎」。
訓練輸出內容
訓練會產生模型資源,可用於執行下列操作:
- 建立回測結果,以便使用目前已知的真陽性評估模型效能
- 建立預測結果,以便在您準備開始審查潛在洗錢活動的新案件時使用
模型中繼資料包含 missingness
指標,可用於評估資料集一致性 (例如,比較不同作業的功能群組缺失值)
指標名稱 | 指標說明 | 指標值範例 |
---|---|---|
缺失值 |
每個特徵家族中所有特徵的缺失值比例。 在理想情況下,所有 AML AI 功能系列的缺失率應接近 0。如果這些功能系列的基礎資料無法整合,就可能發生例外狀況。 在調整、訓練、評估和預測之間,如果任何特徵家族的這個值出現重大變化,可能表示所用資料集不一致。 |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "missingnessValue": 0.00, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "missingnessValue": 0.45, }, ], } |
重要性 |
這項指標顯示特徵家族對模型的重要性。值越高,表示模型使用該特徵家族的程度越高。未在模型中使用的特徵群組重要性為零。 您可以使用重要性值,優先處理家庭偏差結果。舉例來說,如果某個系列的偏差值對模型的重要性較高,則應優先解決這個系列的問題。 |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "importanceValue": 459761000000, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "importanceValue": 27492, }, ], } |
模型中繼資料不含測試集的喚回指標。如要針對特定時間範圍 (例如測試集) 產生回憶度測量值,請參閱「評估模型」一文。