此页面由 Cloud Translation API 翻译。

InfoType 和 InfoType 检测器

Sensitive Data Protection 使用信息类型（也称为 infoType）来定义需要在扫描中查找的内容。infoType 是一种敏感数据类型，如姓名、电子邮件地址、电话号码、身份证号码和信用卡号等等。infoType 检测器是指依据 infoType 的匹配条件进行匹配的相应检测机制。

选择 infoType 的最佳实践

了解数据是保护数据的第一步，也是至关重要的一步。最佳做法是，您应仅收集、存储和处理出于业务需求而需要的信息。通过确定您处理的数据，您可以针对业务、用户以及数据安全和隐私保护状况做出明智的决策。

您的某些业务用例可能需要某些敏感信息，而其他用例可能不需要。没有一种解决方案能够支持所有使用情形。因此，Sensitive Data Protection 可让您灵活控制要扫描的数据类型。如果您使用信息类型进行去标识化或遮盖，还可以控制数据转换的时间和方式。

一般准则

选择 infoType 时，请考虑以下一般性准则。

使用通用 infoType 代替特定 infoType

如果您不需要扫描结果显示检测到的具体信息类型，请考虑在检查配置中使用一般信息类型，而不是具体信息类型。如需了解在请求中使用常规 infoType 检测器的优势，请参阅本页中的常规和特定 infoType 检测器。

如需查看通用 infoType 的完整列表及其包含的特定 infoType，请参阅通用 infoType。

您无需收集的敏感信息

您企业中的每项服务都应仅收集该服务所需的数据。例如，您企业中的某些服务不需要收集财务信息。对于这些服务，请考虑启用 CREDIT_CARD_NUMBER、FINANCIAL_ACCOUNT_NUMBER 等行业类别 FINANCE 中的 infoType 检测器。

收集个人信息可能存在正当的用例，但不应与团队广泛分享。例如，提交支持服务工单的客户可能会向您提供联系信息，以便您联系他们来解决任何问题。您不希望团队中查看工单的每个人都看到个人身份信息 (PII)。不妨考虑启用 PII 类型类别中的 infoType 检测器（如 PHONE_NUMBER、EMAIL_ADDRESS）和其他 infoType。

受行业、数据隐私权或管辖区法规约束的敏感数据类别

某些类型的信息因其签发方式或用途而被视为敏感信息。在其他情况下，情境信息和人口统计信息会被视为受保护的类别。这些类型的信息在收集、使用和管理方面可能受到额外的限制。不妨考虑启用以下类别的 infoType 检测器：

类型类别 SPII、GOVERNMENT_ID 和 DEMOGRAPHIC
行业类别 HEALTH

在相似的 infoType 之间进行选择

在选择类似的 infoType 检测器时，请考虑以下事项。

护照

如果您不需要扫描特定国家/地区的护照标识符，请选择通用检测器：PASSPORT。

某些特定于国家/地区的护照检测器（例如 UK_PASSPORT）可供使用。不过，某些特定国家/地区的护照检测器只能识别具有特定格式或包含上下文线索的护照。

用户姓名

在扫描人名时，对于大多数使用情形，请使用 PERSON_NAME 而不是 FIRST_NAME 或 LAST_NAME。

PERSON_NAME 是用于检测人名的检测器。它包括单字名称和全名。此检测器尝试使用各种技术（包括自然语言理解）来检测姓名，例如 Jane、Jane Smith 和 Jane Marie Smith。FIRST_NAME 和 LAST_NAME 是此检测器的子集，用于尝试识别名称的各个部分。这些检测器的发现结果始终是 PERSON_NAME 的发现结果的子集。

日期和时间

如果您不需要扫描所有日期，请考虑使用目标日期检测器，例如 DATE_OF_BIRTH。此检测器尝试识别表明日期与出生时间相关的上下文。

DATE 检测器会尝试查找所有日期，无论上下文如何。它还会标记相对日期，例如今天或昨天。同样，TIME 会尝试查找所有时间戳。

位置

如果您不需要扫描所有位置，请考虑使用 STREET_ADDRESS 而不是 LOCATION 检测器。STREET_ADDRESS 检测器会尝试查找完全限定的地址，这些地址通常比宽泛的位置更精确，并且可以被视为更敏感的信息。

LOCATION infoType 检测器会尝试查找任何位置，无论上下文如何，例如“巴黎”或“加拿大”。

需要上下文的 infoType 检测器

许多 infoType 检测器需要存在上下文线索，然后才能识别匹配项。如果内置 infoType 检测器未标记您认为应该标记的项目，因为这些项目附近没有上下文线索，请考虑改用 GENERIC_ID 或自定义 infoType 检测器。

缺少通用行业定义的信息类型

某些信息类型缺乏通用的行业定义。例如，医疗记录编号、账号、PIN 码和安全码。对于这些类型，请考虑使用 GENERIC_ID、FINANCIAL_ACCOUNT_NUMBER 和 MEDICAL_RECORD_NUMBER 等 infoType。这些检测器结合使用实体检测和上下文来查找可能敏感的元素。

延迟时间较长的 infoType 检测器

避免启用不需要的 infoType 检测器。虽然以下信息类型在某些情况下很有用，但与不包含这些信息类型的请求相比，包含这些信息类型的请求的运行速度会慢得多：
- PERSON_NAME
- FEMALE_NAME
- MALE_NAME
- FIRST_NAME
- LAST_NAME
- DATE_OF_BIRTH
- LOCATION
- STREET_ADDRESS
- ORGANIZATION_NAME
始终明确指定 infoType 检测器。请勿使用空的 infoTypes 列表。

如何使用 infoType

Sensitive Data Protection 在扫描配置中使用 infoType 检测器来确定要检查的内容以及如何转换发现结果。显示或报告扫描结果时也会使用 infoType 名称。

例如，如果要在文本块中查找电子邮件地址，您可以在检查配置中指定 EMAIL_ADDRESS 这种 infoType 检测器。如果要隐去文本块中的电子邮件地址，您可以在检查配置和去标识化配置中指定 EMAIL_ADDRESS 来指示如何隐去或转换该类型。

此外，您可以结合使用内置和自定义的 infoType 检测器来从扫描结果中排除一部分电子邮件地址。首先，创建一个名为 INTERNAL_EMAIL_ADDRESS 的自定义 infoType，并将其配置为排除内部测试电子邮件地址。然后，您可以设置扫描以纳入 EMAIL_ADDRESS 的结果，再添加排除规则以排除与 INTERNAL_EMAIL_ADDRESS 匹配的任何结果。如需详细了解自定义 infoType 检测器的排除规则和其他功能，请参阅创建自定义 infoType 检测器。

Sensitive Data Protection 提供了一组可以按名称指定的内置 infoType 检测器，每个检测器都列在 InfoType 检测器参考文档中。这些检测器使用各种方法来发现每种类型并对其进行分类。例如，一些类型要求进行模式匹配，一些类型可能有数学校验和，一些类型有特殊的数字限制，还有一些类型则可能有具体的前缀或结果上下文。

示例

设置 Sensitive Data Protection 以扫描内容时，请添加要在扫描配置中使用的 infoType 检测器。

例如，以下 JSON 和代码示例演示了对 DLP API 的简单扫描请求。请注意，inspectConfig 中指定了 PHONE_NUMBER 检测器，用于指示 Sensitive Data Protection 扫描给定字符串中的手机号码。