通过发现和检查了解您的数据

本页介绍并比较了两项 Sensitive Data Protection 服务:发现服务检查服务,它们可帮助您了解数据并实现数据治理工作流。

敏感数据发现

发现服务会监控贵组织中的数据。该服务会持续运行,并自动发现、分类和分析数据。发现功能可帮助您了解自己存储的数据的位置和性质,包括您可能不知道的数据资源。未知数据(有时称为影子数据)通常不会受到与已知数据相同级别的数据治理和风险管理。

您可以在不同范围内配置发现功能。您可以为数据的不同子集设置不同的性能分析时间表。您还可以排除不需要分析的数据子集。

发现扫描输出:数据分析文件

发现扫描的输出是针对范围内每个数据资源的一组数据分析。例如,对 BigQuery 或 Cloud SQL 数据进行发现扫描会在项目、表和列级别生成数据配置文件。

数据分析文件包含有关所分析资源的指标和分析洞见。其中包括数据分类(或 infoType)、敏感度级别、数据风险级别、数据大小、数据形状,以及用于描述数据性质及其数据安全状况(数据的安全性)的其他元素。您可以使用数据配置文件,就如何保护数据做出明智的决策,例如,在表上设置访问权限政策。

假设有一个名为 ccn 的 BigQuery 列,其中每行都包含一个唯一的信用卡号,并且没有 null 值。生成的列级数据剖析文件将包含以下详细信息:

显示名称
Field ID ccn
Data risk High
Sensitivity High
Data type TYPE_STRING
Policy tags No
Free text score 0
Estimated uniqueness High
Estimated null proportion Very low
Last profile generated DATE_TIME
Predicted infoType CREDIT_CARD_NUMBER

此外,此列级配置文件是表级配置文件的一部分,可提供数据位置、加密状态以及表是否公开共享等数据洞见。在 Google Cloud 控制台中,您还可以查看表的 Cloud Logging 条目、具有表角色的 IAM 正文,以及附加到表的 Dataplex 标记。

表级数据分析文件,用于显示有关表的指标和数据分析,并让您能够在 Logging、IAM 和 Dataplex 中查看表。

如需查看数据分析中提供的指标和数据分析的完整列表,请参阅指标参考文档

何时使用发现

在规划数据风险管理方法时,我们建议您先从发现开始。发现服务可帮助您全面了解数据,并启用提醒报告问题补救功能。

此外,发现服务还可以帮助您确定可能包含非结构化数据的资源。此类资源可能需要进行详尽的检查。非结构化数据由 0 到 1 之间的较高自由文本得分指定。

敏感数据检查

检查服务会对单个资源执行全面扫描,以找到敏感数据的每个实例。检查会为每个检测到的违规实例生成一个发现结果

检查作业提供了丰富的配置选项,可帮助您精确找到要检查的数据。例如,您可以启用抽样功能,将要检查的数据限制为特定行数(对于 BigQuery 数据)或特定文件类型(对于 Cloud Storage 数据)。您还可以定位到数据创建或修改的特定时间段。

与持续监控数据的发现不同,检查是一种按需操作。不过,您可以安排名为作业触发器的周期性检查作业。

检查扫描输出:发现结果

每个发现结果都包含详细信息,例如检测到的实例的位置、可能的 infoType 以及发现结果与 infoType 匹配的确定性(也称为可能性)。根据您的设置,您还可以获取相应发现所涉及的实际字符串;在敏感数据保护中,此字符串称为引用

如需查看检查发现结果中包含的详细信息的完整列表,请参阅 Finding

何时使用检查

当您需要调查非结构化数据(例如用户创建的评论或评价)并识别每个个人身份信息 (PII) 实例时,检查功能非常有用。如果发现扫描发现了包含非结构化数据的任何资源,我们建议您对这些资源运行检查扫描,以获取每个具体发现的详细信息。

何时不应使用检查

如果同时满足以下两个条件,则检查资源没有用处。发现扫描有助于您确定是否需要执行检查扫描。

  • 资源中只有结构化数据。也就是说,没有包含自由格式数据(例如用户评论或评价)的列。
  • 您已经知道该资源中存储的 infoType。

例如,假设发现扫描中的数据配置文件表明某个 BigQuery 表没有包含非结构化数据的列,但有一个包含唯一信用卡号的列。在这种情况下,检查表格中的信用卡号没有用。检查会为该列中的每项生成一条发现。如果您有 100 万行,并且每行包含 1 个信用卡号,则检查作业将针对 CREDIT_CARD_NUMBER infoType 生成 100 万个发现结果。在此示例中,无需进行检查,因为发现扫描已表明该列包含唯一的信用卡号。

数据驻留、处理和存储

发现和检查都支持数据驻留要求:

  • 发现服务会在数据所在的位置处理数据,并将生成的数据分析文件存储在与受分析数据相同的区域或多区域中。如需了解详情,请参阅数据驻留注意事项
  • 在 Google Cloud 存储系统中检查数据时,检查服务会在数据所在的区域处理数据,并将检查作业存储在该区域。通过混合作业或 content 方法检查数据时,您可以使用检查服务指定其应在何处处理数据。如需了解详情,请参阅数据的存储方式

比较摘要:发现和检查服务

发现 检查
优势
  • 在组织、文件夹或项目中持续可见。
  • 有助于识别包含敏感数据、高风险数据和非结构化数据的资源。如需查看完整的数据分析列表,请参阅指标参考文档
  • 有助于发现未知数据(或“影子数据”)。
  • 对单个资源进行按需检查。
  • 识别被检查资源中的每个敏感数据实例。
费用
  • 运行费用估算:免费
  • 使用模式:每 GB 0.03 美元或 3 TB 的价格(以较低者为准)
  • 订阅模式(预留容量):每订阅单元 2,500 美元

在用量模式下,10 TB 的费用约为每月 300 美元。
  • 1 GB 以下:免费
  • 1 GB 到 50 TB:每 GB 1.00 美元
  • 50 TB 到 500 TB:0.75 美元/GB
  • 超过 500 TB:每 GB 0.60 美元

如果是 10 TB,每次扫描的费用大约为 1 万美元。
支持的数据源 BigLake
BigQuery
Cloud Run 函数环境变量
Cloud Run 服务修订环境变量
Cloud SQL
Cloud Storage
Vertex AI (预览版
Amazon S3
BigQuery
Cloud Storage
Datastore
混合(任何来源)1
支持的作用域
  • Google Cloud 组织、文件夹、项目或数据资源
  • Amazon Web Services 组织、账号或 S3 存储桶
单个 BigQuery 表、Cloud Storage 存储桶或 Datastore 种类。
内置检查模板
内置自定义 infoType
扫描输出 所有受支持数据的简要概览(数据分析文件)。 被检查资源中敏感数据的具体发现结果。
将结果保存到 BigQuery
以标记形式发送到 Dataplex
将结果发布到 Security Command Center
将发现结果发布到 Google Security Operations (适用于组织级和文件夹级发现)
发布到 Pub/Sub
数据驻留支持

1 混合检查采用不同的定价模式。如需了解详情,请参阅检查来自任意来源的数据

后续步骤