本术语表定义了特定于反洗钱 AI 的术语。如需了解常见的机器学习术语,请参阅机器学习术语表。
A
- ADC
每个 API 客户端库都提供了使用本地应用默认凭据 (ADC) 的方法
如需了解本地 ADC 凭据与 gcloud CLI 凭据之间的区别,请参阅 gcloud CLI 凭据和 ADC 凭据
B
- backtesting
- 回溯测试会使用历史数据来评估模型的性能(观察到的召回率),方法是将模型生成的风险得分与历史调查的实际结果进行比较。
- 回测结果
- 创建 AML AI BacktestResult 资源(也称为“回溯结果”),以测试模型在数据集上的表现。
- 如需了解详情,请参阅评估模型。
C
- 核心银行数据
- 核心银行数据包括有关相关方、交易和账户余额的数据。这有助于反洗钱 AI 了解您的客户及其银行活动,以便检测风险特征和行为。
- 核心时间范围
核心时间范围是指 AML AI 操作(引擎配置、训练、回测和预测)中用于生成训练、评估示例或模型输出的时段。数据集中的所有表都必须涵盖此时间范围。
不同的 API 操作对生成特征和标签的核心时间范围有不同的要求。如需了解详情,请参阅了解数据范围和时长。
另请参阅回溯期。
D
- 数据验证
- AML AI 会在创建数据集、引擎配置、模型、回测结果或预测结果时进行数据验证检查。如果指定的数据集未通过数据验证,则系统不会创建资源,并会生成数据验证错误(指明问题的性质)。
- 如需了解详情,请参阅数据验证错误。
- dataset
AML AI Dataset 资源(或简称“Dataset”)用于指定符合 AML 输入数据模型的数据,这些数据可用于生成模型、评估模型的性能,以及生成每个相关方的风险评分和可解释性。
如需了解详情,请参阅了解反洗钱数据模型和要求。
E
- 结束时间
使用数据集的 AML AI 操作需要您指定结束时间。此字段用于控制数据集中要用于生成训练或评估示例和模型输出的月份。
操作的结束时间和所有月份都必须在关联数据集的日期范围内。
例如,训练操作需要 15 个月的核心时间范围。如果您使用的数据集的日期范围为 2021 年 10 月 15 日至 2023 年 5 月 21 日,结束时间为 2023 年 4 月 12 日,则在训练过程中,系统会使用 2022 年 1 月至 2023 年 3 月的示例(这些日期在数据集的日期范围内)。
- 引擎配置
AML AI EngineConfig 资源(也称为“引擎配置”)用于在生成和评估 AML AI 模型以及生成风险评分和可解释性时指定参数。
其中一些参数在创建引擎配置的 API 调用中指定,例如引擎版本和预期的调查量。其他参数由 AML AI 使用指定的数据集自动生成,例如经过调整的超参数。
如需了解详情,请参阅配置引擎。
- 引擎版本
AML AI EngineVersion 资源(也称为“引擎版本”)用于定义 AML AI 检测风险的方式,包括模型调优、训练和评估,以及整体 AML 数据模型和特征族。
配置 AML AI 引擎需要您指定要使用的引擎版本。然后,该引擎版本将用于使用该引擎配置训练和评估模型,以及生成风险评分和可解释性。
引擎版本命名结构如下,引擎类型表示支持的业务线,引擎子类型、调整、主要版本和次要版本会随着实现新行为而更新。
示例版本包括:
aml-retail.default.v004.000.202312-000
aml-commercial.default.v004.000.202312-000
如需详细了解如何管理引擎版本,请参阅管理引擎版本。
- 评估
另请参阅backtesting。
- 可解释性
AML AI 模型用于识别存在高洗钱风险行为或特征的相关方。可解释性表示哪些行为或特征对给定方获得高风险得分贡献最大。
如需了解详情,请参阅了解预测输出。
另请参阅预测。
- 导出元数据
多个 AML AI 资源存储与性能和数据质量相关的其他信息,您可以使用导出元数据操作访问这些信息。
如需了解详情,请参阅 AML 输出数据模型。
F
- 特征族
- 特征族是一系列相关的 ML 特征,提供简单易懂的分类,以便调查人员和内部审核团队参考。
I
- 不可变实体
AML AI 需要能够在不同时间点重新创建数据视图,以进行调整、训练和回溯测试。为此,AML AI 会区分可变实体(值可能会随时间而变化)和不可变实体(值不会变化)。
例如,可变实体可能是您的支票账户余额,它可能会随时间而变化;但不可变实体可能是某个事件,例如 2024 年 7 月 2 日凌晨 12:00:00 从您的支票账户中提取 50 美元,由于它是时间的快照,因此不会发生变化。
在 AML 输入数据模型中,表示不可变实体的表没有
validity_start_time
和is_entity_deleted
字段。这包括 RiskCaseEvent 表。如需了解详情,请参阅了解数据随时间的变化情况。
另请参阅可变实体。
- instance
AML AI 实例资源(也称为“实例”)位于所有其他 AML AI 资源的根目录下,您必须先创建实例资源,然后才能使用其他 AML AI 资源。您可以在项目中同一区域内创建多个实例。
如需了解详情,请参阅创建 AML AI 实例。
- 调查流程
调查流程涵盖由提醒触发的整个调查或一系列调查。该流程从调查的第一部分开始,到调查预计不会产生进一步结果时结束。
如需了解详情,请参阅风险信号的生命周期。
L
- 回溯期
除了核心时间范围之外,AML AI 操作还要求数据集包含回溯期,以便生成可跟踪行为随时间推移变化的特征。
如需了解详情,请参阅了解数据范围和时长。
- LRO
多项 AML AI 操作(包括引擎配置、训练、回测和预测)都会发起长时间运行的操作 (LRO)。
如需了解详情,请参阅管理长时间运行的操作。
M
- 缺失
创建以下 AML AI 资源时,系统会为所有特征族计算缺失指标:引擎配置、模型、回测结果和预测结果。
此指标显示特征族中所有特征的缺失值所占的比例。如果任何特征族在调优、训练、评估和预测阶段的缺失率发生显著变化,则可能表明所用数据集不一致。
- model
AML AI 模型资源(也称为“模型”)表示经过训练的模型,可用于生成风险评分和可解释性。
- 可变实体
AML AI 需要能够在不同时间点重新创建数据视图,以进行调整、训练和回溯测试。为此,AML AI 会区分可变实体(值可能会随时间而变化)和不可变实体(值不会变化)。
例如,可变实体可能是您的支票账户余额,该余额可能会随时间而变化;但不可变实体可能是某个事件,例如在 2024 年 7 月 2 日 12:00:00 从您的支票账户中提取 50 美元,由于该事件是时间的快照,因此不会发生变化。
在 AML 输入数据模型中,表示可变实体的表具有
validity_start_time
和is_entity_deleted
字段。这包括 Party、AccountPartyLink、Transaction 和 PartySupplementaryData 表。如需了解详情,请参阅了解数据随时间的变化情况。
另请参阅不可变实体。
O
- observed-recall
AML AI 使用“观察到的召回率”指标衡量模型在历史数据上的性能。
此指标显示在所选时间段内被标记为正例(例如,客户流失)的相关方所占的比例。如果在可疑活动期内,被评估的模型将这些相关方识别为高风险,则此比例会更高。
P
- party
在反洗钱 (AML) 输入数据模型中,相关方代表银行的客户。当事人可以是自然人或法律实体。
如需了解详情,请参阅派对表。
另请参阅注册方。
- 预测
- 预测结果
AML AI PredictionResult 资源(也称为“预测结果”)是使用模型创建预测的结果。
如需详细了解如何生成风险评分和可解释性,以及如何在调查过程中使用这些信息,请参阅生成风险评分和可解释性部分中的页面。
R
- 已注册的相关方
- 在方可用于生成预测结果(例如方级风险评分和可解释性)之前,该方必须已注册相应的业务领域。
- 风险案例
风险案例涵盖针对不同方的调查流程或一组相关调查流程。
请参阅 RiskCaseEvent 表。
- 风险调查数据
AML AI 会使用风险调查数据来了解您的风险调查流程和结果,并生成训练标签。
- 风险评分
AML AI 模型用于识别存在高洗钱风险行为或特征的相关方。这通过风险评分来实现。
风险评分介于 0 到 1 之间。得分越高,风险越高。不过,风险信号不应直接解读为洗钱活动的概率。
如需了解详情,请参阅了解预测输出。
- 风险类型
AML AI 可跨与交易监控相关的五种核心 AML 风险类型识别洗钱风险。
有了充足的调查数据和补充方数据(请参阅补充数据表格),AML AI 可以涵盖更多类型。
S
- 补充数据
例如,您可以识别并添加风险指标,以帮助模型更好地预测其他方法无法很好覆盖的风险类型。
您可以使用 PartySupplementaryData 表将补充数据添加到数据集中。
- 可疑活动期
“可疑活动期”是指您认为被调查方在此时间段内表现出可疑行为的时间段。此指标用于模型评估(例如回测结果的召回率指标),用于确认在高风险客户有可疑活动的月份,模型是否识别出了这些客户。
如需了解详情,请参阅风险信号的生命周期。
T
- 培训
- AML AI 会在创建模型的过程中使用指定引擎配置中的超参数(请参阅调优)进行训练。
- 调音
- 调优是指优化模型超参数。AML AI 会在创建引擎配置的过程中进行调优。
V
- 有效期开始时间
AML AI 会使用可变实体的有效性开始时间来构建一个视图,以了解银行在给定时间点知道了什么。这样一来,AML AI 便可准确训练可在最新数据(即银行已知的数据)上重复使用的模型,从而生成高保真度风险评分。
给定行的有效开始时间表示银行知道此行中数据且数据正确的最早时间。
如需了解详情,请参阅了解数据随时间的变化情况。