產生模型

本頁面簡要介紹模型訓練背後的概念。AML AI 模型資源代表經過訓練的模型,可用於產生風險分數和可解釋性。

訓練或重新訓練的時機

AML AI 會在建立模型資源時訓練模型。模型必須經過訓練,才能進行評估 (即回測) 或用於產生預測結果。

為取得最佳效能並維持最新的模型,建議您每月重新訓練模型。不過,特定引擎版本會在推出較新的子引擎版本後,支援產生預測結果 12 個月。

訓練方式

如要訓練模型 (也就是建立模型),請參閱「建立及管理模型」。

具體來說,您需要選取下列項目:

  • 用於訓練的資料:

    指定資料集和資料集的結束時間。

    訓練會使用標記和功能,以完整的日曆月為單位,但不包含所選結束時間的月份。詳情請參閱「資料集時間範圍」。

  • 使用一致資料集建立的引擎設定:

    請參閱「設定引擎」。

訓練輸出內容

訓練會產生模型資源,可用於執行下列操作:

  • 建立回測結果,以便使用目前已知的真陽性評估模型效能
  • 建立預測結果,以便在您準備開始審查潛在洗錢活動的新案件時使用

模型中繼資料包含 missingness 指標,可用於評估資料集一致性 (例如,比較不同作業的功能群組缺失值)

指標名稱 指標說明 指標值範例
缺失值

每個特徵家族中所有特徵的缺失值比例。

在理想情況下,所有 AML AI 功能系列的缺失率應接近 0。如果這些功能系列的基礎資料無法整合,就可能發生例外狀況。

在調整、訓練、評估和預測之間,如果任何特徵家族的這個值出現重大變化,可能表示所用資料集不一致。

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
重要性

這項指標顯示特徵家族對模型的重要性。值越高,表示模型使用該特徵家族的程度越高。未在模型中使用的特徵群組重要性為零。

您可以使用重要性值,優先處理家庭偏差結果。舉例來說,如果某個系列的偏差值對模型的重要性較高,則應優先解決這個系列的問題。

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "importanceValue": 459761000000,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "importanceValue": 27492,
    },
  ],
}

模型中繼資料不含測試集的喚回指標。如要針對特定時間範圍 (例如測試集) 產生回憶度測量值,請參閱「評估模型」一文。