自定义 infoType 检测器

Sensitive Data Protection 包含许多内置的 infoType 检测器,但您也可自行创建。您可以通过定义自己的自定义 infoType 检测器来自定义检测行为,以便 Sensitive Data Protection 检查与您指定的模式相匹配的敏感数据或对其进行去标识化。以下是自定义 infoType 检测器的类型:

  • 常规自定义字典检测器 - 敏感数据保护功能匹配的简单字词和短语列表。如果您的字词数最多几十万,请使用常规自定义字典检测器。
  • 大型自定义字典检测器 - 由敏感数据保护功能使用 Cloud Storage 或 BigQuery 中存储的大量字词或短语生成。如果您有一个包含高达数千万个字词或短语的庞大列表,请使用大型自定义字典检测器。
  • 正则表达式 (regex) 检测器使敏感数据保护功能能够基于正则表达式模式检测匹配项。
  • 代理 infoType 检测器可检测 Sensitive Data Protection 去标识化转换 CryptoReplaceFfxFpeConfig 中的输出。此自定义 infoType 检测器仅与 content:reidentify 方法结合使用,目的是在 FFX 模式下通过保留格式加密 (FPE) 逆转去标识化。因此,这些主题中未详细介绍代理。如需详细了解如何以及何时使用代理自定义 infoType 检测器,请参阅假名化

此外,敏感数据保护还包含检查规则的概念,因此您可使用以下规则微调扫描结果:

  • 通过排除规则,您可以通过向内置或自定义 infoType 检测器添加规则来排除错误或不需要的结果
  • 通过热词规则,您可以通过向内置或自定义 infoType 检测器添加规则来增加返回结果的数量或提高准确率

如需详细了解自定义 infoType 检测器,请参阅 InfoType 和 InfoType 检测器概念页面。如需您可以根据需要使用或更改的几个示例,请参阅自定义 infoType 检测器示例。本主题的其余部分介绍了如何使用 Sensitive Data Protection 自行创建自定义 infoType 检测器。

自定义 infoType 检测器的使用范围

自定义 infoType 检测器在 CustomInfoType 对象中定义的。配置以下内容时,请在 InspectConfig 对象中指定 CustomInfoType

API 概览

借助 CustomInfoType 对象,您可以为新内容创建自定义 infoType 检测器或微调由预定义的 infoType 检测器返回的结果。

CustomInfoType 对象由按照上述内容设置的下列字段构成:

  • "infotype"InfoType 对象中包含的自定义 infoType 检测器的名称。
  • "likelihood":要为此自定义 infoType 检测器返回的默认 Likelihood 值。您可以在 "detectionRules" 中指定 Likelihood 备用值;如果结果符合规则指定的条件,它将取代这个 Likelihood 基本值。如果不包含 "likelihood" 字段,则自定义 infoType 检测器默认为 VERY_LIKELY。如需详细了解可能性,请参阅可能性概念页面。
  • "detectionRules":一组 DetectionRule 对象,它们可额外应用于此自定义 infoType 检测器的所有结果。您可以在此处将热词规则指定为 HotwordRule 对象。规则按照指定顺序进行应用。此字段不适用于 SurrogateType 对象。
  • "sensitivityScore":要为此自定义 infoType 检测器返回的 SensitivityScore 值。如果不包含 "sensitivityScore" 字段,则自定义 infoType 检测器默认为 VERY_LIKELY

    敏感度得分用于数据分析。在分析数据时,敏感数据保护功能会使用 infoType 的敏感度得分来计算敏感度级别

  • 下列字段之一,具体取决于您要创建的自定义 infoType 检测器的种类:

    • "dictionary"Dictionary 对象,其中包含要搜索的字词或短语的列表。
    • "regex"Regex 对象,其中包含定义正则表达式的单个模式。
    • "surrogateType"SurrogateType 对象;如果存在,则表示自定义 infoType 检测器是一个代理。要详细了解如何使用代理自定义 infoType 检测器,请参阅假名化
    • "storedType":对现有 StoredInfoType 对象的引用。创建大型自定义字典检测器时,此字段为必填字段。虽然您可以通过定义此字段来创建常规字典检测器或正则表达式检测器,但通过分别定义 dictionary 字段或 regex 字段来创建这些检测器更为简单。

后续步骤

通过下列主题详细了解如何创建自定义 infoType: