本页介绍了敏感数据保护功能如何创建存储在 Cloud Storage 中的数据的去标识化副本。其中还列出了此操作的限制以及您在开始之前应考虑的事项。
如需了解如何使用 Sensitive Data Protection 创建 Cloud Storage 数据的去标识化副本,请参阅以下内容:
去标识化简介
去标识化是从数据中移除标识信息的过程。其目标是在满足隐私权要求的同时,使用和共享个人信息(例如健康、财务或受众特征信息)。如需详细了解去标识化,请参阅对敏感数据进行去标识化。
如需详细了解敏感数据保护中的去标识化转换,请参阅转换参考文档。如需详细了解敏感数据保护功能如何隐去图片中的敏感数据,请参阅图片检查和隐去。
何时使用此功能
如果您在业务运营中使用的文件包含敏感数据(例如个人身份信息 [PII]),此功能会非常有用。借助此功能,您可以在业务流程中使用和共享信息,同时隐去敏感数据。
去标识化流程
本部分介绍了敏感数据保护功能中针对 Cloud Storage 中内容的去标识化流程。
如需使用此功能,您需要创建一个检查作业 (DlpJob
),并将其配置为创建 Cloud Storage 文件的去标识化副本。Sensitive Data Protection 会扫描指定位置中的文件,并根据您的配置对其进行检查。在检查每个文件时,Sensitive Data Protection 会去标识化与您的敏感数据条件匹配的所有数据,然后将内容写入新文件。新文件的文件名始终与原始文件相同。它会将此新文件存储在您指定的输出目录中。如果扫描范围内包含某个文件,但没有任何数据符合去标识化条件,并且在处理过程中没有出现错误,则系统会将该文件原封不动地复制到输出目录。
您设置的输出目录必须位于与包含输入文件的存储桶不同的 Cloud Storage 存储桶中。在输出目录中,敏感数据保护功能会创建一个镜像输入目录文件结构的文件结构。
例如,假设您设置了以下输入和输出目录:
- 输入目录:
gs://input-bucket/folder1/folder1a
- 输出目录:
gs://output-bucket/output-directory
在去标识化过程中,敏感数据保护会将去标识化文件存储在 gs://output-bucket/output-directory/folder1/folder1a
中。
如果输出目录中存在与去标识化文件同名的文件,系统会覆盖该文件。如果您不希望覆盖现有文件,请先更改输出目录,然后再运行此操作。或者,您也可以考虑在输出存储桶上启用对象版本控制。
无论是否发现了敏感数据并进行了去标识化处理,系统都会将原始文件的文件级访问权限控制列表 (ACL) 复制到新文件。不过,如果输出存储桶仅配置了统一存储桶级权限,而未配置精细(对象级)权限,则 ACL 不会复制到去标识化文件。
下图展示了对存储在 Cloud Storage 存储桶中的四个文件进行去标识化的过程。无论敏感数据保护功能是否检测到任何敏感数据,系统都会复制每个文件。每个复制的文件都与原始文件同名。
价格
如需了解价格信息,请参阅对存储中的数据进行检查和转换。
支持的文件类型
Sensitive Data Protection 可以对以下文件类型群组进行去标识化处理:
- CSV
- Image
- 文本
- TSV
默认去标识化行为
如果您想定义 Sensitive Data Protection 如何转换发现结果,可以为以下类型的文件提供去标识化模板:
- 非结构化文件,例如包含自由格式文本的文本文件
- 结构化文件,例如 CSV 文件
- 图片
如果您未提供任何去标识化模板,Sensitive Data Protection 会按如下方式转换发现结果:
- 在非结构化和结构化文件中,敏感数据保护功能会将所有发现结果替换为相应的 infoType,如InfoType 替换中所述。
- 在图片中,敏感数据保护功能会用黑框遮盖所有发现结果。
限制和注意事项
在创建 Cloud Storage 数据的去标识化副本之前,请考虑以下几点。
磁盘空间
此操作仅支持存储在 Cloud Storage 中的内容。
此操作会在敏感数据保护功能检查每个文件时为其创建副本。它不会修改或移除原始内容。复制的数据将占用与原始数据大致相同的额外磁盘空间。
对存储空间的写入权限
由于敏感数据保护功能会创建原始文件的副本,因此项目的服务代理必须对 Cloud Storage 输出存储桶拥有写入权限。
抽样和设置发现限制
此操作不支持抽样。具体而言,您无法限制 Sensitive Data Protection 对每个文件进行扫描和去标识化处理的范围。也就是说,如果您使用的是 Cloud Data Loss Prevention API,则无法在 DlpJob
的 CloudStorageOptions
对象中使用 bytesLimitPerFile
和 bytesLimitPerFilePercent
。
此外,您无法控制返回的发现数量上限。如果您使用的是 DLP API,则无法在 DlpJob
中设置 FindingLimits
对象。
检查数据的要求
运行检查作业时,敏感数据保护功能会先根据您的检查配置检查数据,然后再执行去标识化操作。无法跳过检查流程。
使用文件扩展名的相关要求
Sensitive Data Protection 依赖于文件扩展名来识别输入目录中文件的文件类型。它可能无法去标识不含文件扩展名的文件,即使这些文件属于受支持的类型也是如此。
跳过的文件
在对存储空间中的文件进行去标识化处理时,敏感数据保护功能会跳过以下文件:
- 文件大小超过 60,000 KB。如果您有超出此限制的大型文件,请考虑将其拆分为较小的数据块。
- 文件类型不受支持。如需查看支持的文件类型列表,请参阅此页面上的支持的文件类型。
- 您有意从去标识化配置中排除的文件类型。如果您使用的是 DLP API,系统会跳过您从
DlpJob
的Deidentify
操作的file_types_to_transform
字段中排除的文件类型。 - 遇到转换错误的文件。
去标识化表中的输出行顺序
我们无法保证去标识化表格中的行顺序与原始表中的行顺序一致。如果您想将原始表与去标识化表进行比较,则无法依赖行号来识别相应行。如果您打算比较表中的行,则必须使用唯一标识符来标识每个记录。
暂时性密钥
如果您选择加密方法作为转换方法,则必须先使用 Cloud Key Management Service 创建封装密钥。然后,在去标识化模板中提供该密钥。不支持暂时性(原始)键。
后续步骤
- 了解如何使用 DLP API 对存储在 Cloud Storage 中的敏感数据进行去标识化。
- 了解如何使用 Google Cloud 控制台对存储在 Cloud Storage 中的敏感数据进行去标识化处理。
- 完成 Creating a De-identified Copy of Data in Cloud Storage Codelab。
- 了解如何检查存储空间是否存在敏感数据。