總而言之,以下是引擎版本 v003 到 v004 (最高至 v004.008) 的變更:
- 已將
ObservedRecallValuesPerTypology指標新增至回溯測試輸出內容。 - 在
ObservedRecallValues指標值中新增partiesCount和identifiedPartiesCount。
總覽
回溯測試結果會提供指定時間範圍內的模型成效摘要。這些分數是根據回溯測試期間所有顧客的預測結果產生,並根據可用的風險事件評估模型成效。
回溯測試結果可用於評估模型在訓練所用時間範圍以外的成效,或用於長期評估,檢查成效是否下降。
如何回溯測試
如要建立 BacktestResult 資源,請參閱「建立及管理回溯測試結果」。
具體來說,您需要選取下列項目:
用於回溯測試的資料:
指定資料集和結束時間 (必須在資料集的日期範圍內)。
訓練會使用標籤和特徵,這些標籤和特徵是根據完整日曆月 (最多到所選結束時間的月份,但不包括該月份) 產生。詳情請參閱「資料集時間範圍」。
指定要用於回溯測試的標籤資料月份數 (即回溯測試期間數)。
使用 PerformanceTarget 欄位,指定要評估的參與者人數。
根據模型預期的調查量:
指定
partyInvestigationsPerPeriodHint。回溯測試會根據您指定的金額,評估 AML AI 模型在不同每月調查量下的表現。詳情請參閱「回溯測試輸出」。使用一致的資料集建立的模型:
請參閱「建立模型」。
回測期間
backtestPeriods
欄位會指定要使用多少個連續的日曆月,才能在評估這個模型的成效時使用功能和標籤。
回溯測試資料適用下列條件:
- 評估時會採用指定
endTime前最近的完整曆月資料。舉例來說,如果endTime為2023-04-15T23:21:00Z,且backtestPeriods為5,則會使用以下月份的標籤:2023 年 3 月、2023 年 2 月、2023 年 1 月、2022 年 12 月和 2022 年 11 月。 - 準備在實際工作環境中使用模型時,應使用最新的可用資料進行回溯測試。
回溯測試期間必須設為
3天以上。系統會保留兩個月的回溯測試期,以因應重複警示,並使用剩餘月份產生正向標籤,用於評估成效。請避免在訓練和回溯測試中使用重疊的月份,否則可能會過度配適。請確保回溯測試和訓練的結束時間至少間隔
backtestPeriods。也就是說,(回溯測試結果結束時間月份) >= (模型結束時間月份) +
backtestPeriods
您也可以選擇建立模型的預測結果,並自行分析模型在政黨層級的成效。
回測輸出內容
回溯測試結果中繼資料包含下列指標。具體來說,這些指標會顯示下列資訊:
| 指標名稱 | 指標說明 | 指標值範例 |
|---|---|---|
| ObservedRecallValues | 在指定用於回溯測試的資料集上測量的喚回度指標。API 包含 20 項這類測量結果,這些結果是在不同的作業點取得,且平均分布在 0 (不含) 到 2 * partyInvestigationsPerPeriodHint 之間。API 會在 partyInvestigationsPerPeriodHint 新增最終回想度評估。除了召回值,我們也會分別以 partiesCount 和 identifiedPartiesCount 提供分子和分母。
|
{
"recallValues": [
{
"partyInvestigationsPerPeriod": 5000,
"recallValue": 0.80,
"partiesCount": 60,
"identifiedPartiesCount": 48,
"scoreThreshold": 0.42,
},
...
...
{
"partyInvestigationsPerPeriod": 8000,
"recallValue": 0.85,
"partiesCount": 60,
"identifiedPartiesCount": 51,
"scoreThreshold": 0.30,
},
],
}
|
| ObservedRecallValuesPerTypology | 在為回溯測試指定的資料集上,以風險類型層級測量的喚回度指標。評估方式與 ObservedRecallValues 相同。 |
{
"recallValuesPerTypology": [
{
"partyInvestigationsPerPeriod": 5000,
"riskTypology": "risk_typology_id_1",
"recallValue": 0.80,
"partiesCount": 60,
"identifiedPartiesCount": 48,
"scoreThreshold": 0.42,
},
{
"partyInvestigationsPerPeriod": 8000,
"riskTypology": "risk_typology_id_1",
"recallValue": 0.90,
"partiesCount": 60,
"identifiedPartiesCount": 54,
"scoreThreshold": 0.30,
},
...
...
{
"partyInvestigationsPerPeriod": 8000,
"riskTypology": "risk_typology_id_2",
"recallValue": 0.75,
"partiesCount": 4
"identifiedPartiesCount": 3,
"scoreThreshold": 0.30,
},
],
}
|
| 遺漏值 |
每個特徵系列中所有特徵的遺漏值比例。 在理想情況下,所有 AML AI 功能系列都應接近 0。如果這些功能系列的基礎資料無法整合,就可能會發生例外狀況。 如果任何特徵系列的此值在微調、訓練、評估和預測之間出現顯著變化,可能表示所用資料集不一致。 |
{
"featureFamilies": [
{
"featureFamily": "unusual_wire_credit_activity",
"missingnessValue": 0.00,
},
...
...
{
"featureFamily": "party_supplementary_data_id_3",
"missingnessValue": 0.45,
},
],
}
|
| Skew |
顯示訓練和預測或回溯測試資料集之間偏差的指標。家庭偏斜表示特徵系列中特徵值分布的變化,並根據該系列中特徵的重要性加權。最大傾斜度是指該系列中任何特徵的最大傾斜度。 偏斜值範圍為 0 到 1,0 代表特徵系列的值分布沒有顯著變化,1 則代表變化最顯著。如果任一類別的偏斜值或最大偏斜值偏高,表示資料結構發生重大變化,可能會影響模型效能。如果模型未使用系列中的任何特徵,系列偏斜度會採用 -1 值。 如果偏斜值較大,請採取下列任一做法:
您應根據幾個月來偏斜指標的自然變異,設定採取行動的偏斜值和最大偏斜值門檻。 |
{
"featureFamilies": [
{
"featureFamily": "unusual_wire_credit_activity",
"familySkewValue": 0.10,
"maxSkewValue": 0.14,
},
...
...
{
"featureFamily": "party_supplementary_data_id_3",
"familySkewValue": 0.11,
"maxSkewValue": 0.11,
},
],
}
|