本页面简要介绍了模型训练背后的概念。AML AI 模型资源表示可用于生成风险评分和可解释性的训练有素的模型。
何时训练或重新训练
AML AI 会在创建模型资源的过程中训练模型。模型必须先经过训练,然后才能进行评估(即回测)或用于生成预测结果。
为了获得最佳性能并维护最新的模型,不妨考虑每月重新训练一次。不过,给定引擎版本在较新引擎次要版本发布后的 12 个月内支持生成预测结果。
如何训练
如需训练模型(即创建模型),请参阅创建和管理模型。
具体而言,您需要选择以下选项:
用于训练的数据:
指定数据集以及数据集日期范围内的结束时间。
训练会根据截至所选结束时间(但不包括该时间)的完整日历月来使用标签和特征。如需了解详情,请参阅数据集时间范围。
使用一致的数据集创建的引擎配置:
请参阅配置引擎。
训练输出
训练会生成模型资源,可用于执行以下操作:
- 创建回测结果,用于使用当前已知的真正例来评估模型性能
- 创建预测结果,以便在您准备好开始审核新支持请求是否存在潜在的洗钱行为时使用
模型元数据包含 missingness
指标,可用于评估数据集一致性(例如,通过比较不同操作中特征族的缺失值)
指标名称 | 指标说明 | 指标值示例 |
---|---|---|
缺失率 |
每个特征族中所有特征的缺失值所占的比例。 理想情况下,所有 AML AI 特征族的缺失值都应接近 0。如果这些功能族的基础数据无法集成,则可能会出现例外情况。 如果在调优、训练、评估和预测期间,任何特征族的此值发生显著变化,则可能表明所用数据集不一致。 |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "missingnessValue": 0.00, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "missingnessValue": 0.45, }, ], } |
重要性 |
一个指标,用于显示特征族对模型的重要性。值越高,表示模型中对特征族的使用越重要。在模型中未使用的特征族的重要性为零。 在确定针对家庭偏差结果采取行动的优先级时,可以使用重要性值。例如,对于对模型更重要的系列,相同的偏差值更需要立即解决。 |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "importanceValue": 459761000000, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "importanceValue": 27492, }, ], } |
模型元数据不包含测试集中的召回率指标。如需生成特定时间段(例如测试集)的召回率衡量结果,请参阅评估模型。