了解数据范围和时长

AML AI 可用于评估某一业务领域的洗钱风险。一个 LoB 与您的某个零售或商业客户相关联。

创建要与 LoB 搭配使用的数据集时,您需要添加多个表。每个表都应涵盖足够的时间范围。本页面概要介绍了您需要的表,并介绍了如何确定每个表应涵盖的时间范围。

要使用的表

与 AML AI 搭配使用的 BigQuery 数据集应包含以下表:

  • 相关方:与该 LoB 相关的所有相关方
    • 零售 LoB:在所需时间范围的任意时间点拥有账户的所有零售银行客户
    • 商业 LoB:在所需时间范围的任意时间点拥有账户的所有商业银行客户(法人和自然人)
  • AccountPartyLink:哪些账号由哪些相关方持有的完整历史记录。如果“相关方”表中的任何相关方在所需时间范围内的任意时间点是主要账号持有人,则应涵盖产品和服务的所有账号。
  • 交易:AccountPartyLink 表中账号在所需时间范围内的所有交易。
  • RiskCaseEvent:对于“Party”表中的任何风险案件和相关方,如果其 AML_PROCESS_START(调查开始时间)在所需时间范围内,则其所有风险案件事件(请参阅事件类型值)。此表格可能包含事件时间早于或晚于所需时间范围的事件。
  • PartySupplementaryData:(如果使用)对于 0 到 100 个唯一的 party_supplementary_data_id 值,请在 Party 表中包含所需时间范围内所有政党的这些字段值的完整历史记录。

使用其他数据

如果您有与识别洗钱风险相关的有关相关方的其他数据(架构中未另行涵盖),请参阅补充数据

数据集时间范围

对于任何给定操作,数据集中任何表应涵盖的时间范围可按如下方式计算得出。您需要了解以下事项:

  • 结束时间。这是最近一次使用标签和数据来生成用于调整的特征的时间。
  • 您将使用的引擎版本(请参阅引擎版本列表)。
  • 您要执行的操作:调优、训练、预测或回测。
  • 对于预测或回测操作,您将在 API 调用中指定要执行操作的周期数。

了解数据范围时长

首先,您应计算操作将使用的周期数。这是指截至指定结束时间之前的上一个完整日历月结束的连续月份数,AML AI 将针对这些月份评估模型特征。

  • 对于预测和回测操作,这是 API 调用中指定的预测期或回测期的数量。
  • 对于其他操作,这取决于引擎版本和操作。例如,v004.004 引擎版本使用 18 个周期进行调优,15 个周期进行训练。

接下来,您应确定每个表的回溯期。这是 AML AI 计算给定时间段的模型特征所需从该表中获取的数据月的最大数量。

  • 例如,对于 v004.004 引擎版本,Transaction 和 AccountPartyLink 表的保留期限为 13 个月,RiskCaseEvent 表的保留期限为 12 个月,Party 和 PartySupplementaryData 表的保留期限为 0 个月。

数据集需要涵盖所选操作所使用的所有时间段的回溯期。您可以使用以下公式计算在结束时间之前,给定操作所需的完整自然月数据的数量:

  • 周期数 + 回溯期 -1

例如,对于要进行调整的 v004.00X 引擎版本,您需要满足以下条件:

  • 18 + 13 - 1 = 30 个月的数据(来自“Transaction”和“AccountPartyLink”表),
  • 18 + 12 - 1 = 29 个月的数据(来自“风险案例事件”表格),以及表格中风险案例的任何较新事件
  • 从 Party 和 PartySupplementaryData 表中获取 18 + 0 - 1 = 17 个月的数据。