敏感数据保护有助于您发现、分类和去标识化 Google Cloud 内部和外部的敏感数据。本页介绍了构成敏感数据保护的服务。
敏感数据发现
借助发现服务,您可以为组织、文件夹或项目中的数据生成配置文件。数据分析文件包含有关数据资产的指标和元数据,可帮助您确定敏感数据和高风险数据所在的位置。敏感数据保护会以不同详细级别报告这些指标。如需了解您可以分析的数据类型,请参阅支持的资源。
您可以使用扫描配置来指定要扫描的资源、要查找的信息类型 (infoType)、性能分析频率,以及在性能分析完成时要执行的操作。
如需详细了解发现服务,请参阅数据配置文件概览。
敏感数据检查
借助检查服务,您可以对各个资源执行深度扫描,以查找敏感数据实例。您指定要搜索的 infoType,检查服务会生成与该 infoType 匹配的每个数据实例的报告。例如,该报告会告知您 Cloud Storage 存储桶中有多少个信用卡号,以及每个实例的确切位置。
您可以通过以下两种方式执行检查:
- 通过 Google Cloud 控制台或敏感数据保护的 Cloud Data Loss Prevention API (DLP API) 创建检查作业或混合作业。
- 向 DLP API 发送
content.inspect
请求。
通过作业进行检查
您可以通过 Google Cloud 控制台或 Cloud Data Loss Prevention API 配置检查作业和混合作业。检查作业和混合作业的结果会存储在 Google Cloud 中。
您可以指定在检查作业或混合作业完成后敏感数据保护工具要执行的操作。例如,您可以配置作业以将发现结果保存到 BigQuery 表中或发送 Pub/Sub 通知。
检查作业
Sensitive Data Protection 内置了对部分 Google Cloud 产品的支持。您可以检查 BigQuery 表、Cloud Storage 存储桶或文件夹以及 Datastore 种类。如需了解详情,请参阅检查 Google Cloud 存储空间和数据库中是否存在敏感数据。
混合作业
借助混合作业,您可以扫描从任何来源发送的数据载荷,然后将检查结果存储在 Google Cloud 中。如需了解详情,请参阅混合作业和作业触发器。
通过 content.inspect
请求进行检查
借助 DLP API 的 content.inspect
方法,您可以直接将数据发送到 DLP API 进行检查。响应包含检查结果。如果您需要同步操作,或者不想将发现结果存储在 Google Cloud 中,请使用此方法。
对敏感数据进行去标识化处理
借助去标识化服务,您可以混淆敏感数据实例。提供各种转换方法,包括遮盖、隐去、分桶、日期偏移和令牌化。
您可以通过以下两种方式进行去标识化:
- 使用检查作业创建 Cloud Storage 数据的去标识化副本。如需了解详情,请参阅存储空间中敏感数据的去标识化。
- 向 DLP API 发送
content.deidentify
请求。如需了解详情,请参阅对敏感数据进行去标识化。
风险分析
借助风险分析服务,您可以分析结构化 BigQuery 数据,以确定和直观呈现敏感信息泄露(重标识)的风险。
您可以在去标识化之前使用风险分析方法来帮助确定有效的去标识化策略,或者在去标识化之后监控任何变化或离群值。
您可以通过创建风险分析作业来执行风险分析。如需了解详情,请参阅重新识别风险分析。
Cloud Data Loss Prevention API
借助 Cloud Data Loss Prevention API,您可以以编程方式使用敏感数据保护服务。通过 DLP API,您可以检查 Google Cloud 内外的数据,并在云端或离线构建自定义工作负载。如需了解详情,请参阅服务方法类型。
异步操作
如果您想异步检查或分析静态数据,可以使用 DLP API 创建 DlpJob
。创建 DlpJob
相当于通过 Google Cloud 控制台创建检查作业、混合作业或风险分析作业。DlpJob
的结果存储在 Google Cloud 中。
同步操作
如果您想同步检查、去标识化或重标识数据,请使用 DLP API 的内嵌 content
方法。如需对图片中的数据进行去标识化处理,您可以使用 image.redact
方法。您在 API 请求中发送数据,DLP API 会以检查、去标识化或重新标识化结果进行响应。content
方法和 image.redact
方法的结果不会存储在 Google Cloud 中。
后续步骤
- 了解如何分析项目中的数据。
- 了解如何启动或安排检查。
- 了解如何使用混合作业检查来自外部来源的数据。
- 了解如何创建存储在 Cloud Storage 中的数据的去标识化副本。
- 了解如何计算数据集的 k-匿名性。
- 了解如何使用 DLP API 对数据进行去标识化和重标识。