Cloud Data Loss Prevention (Cloud DLP) 现已成为敏感数据保护功能的一部分。API 名称保持不变：Cloud Data Loss Prevention API (DLP API)。如需了解构成敏感数据保护的服务，请参阅敏感数据保护概览。

此页面由 Cloud Translation API 翻译。

使用 API 创建存储在 Cloud Storage 中的数据的去标识化副本

本页面介绍如何使用 Cloud Data Loss Prevention API 检查 Cloud Storage 资源并创建已去标识化的数据副本。

此操作有助于确保您在业务流程中使用的文件不包含敏感数据，例如个人身份信息 (PII)。敏感数据保护可以检查 Cloud Storage 存储桶中的文件是否包含敏感数据，并在单独的存储桶中创建这些文件的去标识化副本。然后，您可以在业务流程中使用这些去标识化副本。

如需详细了解此功能，请参阅Cloud Storage 中敏感数据的去标识化。

准备工作

本页面假定您满足以下条件：

您已启用结算功能。

了解如何启用结算功能
您已启用 Sensitive Data Protection。

启用敏感数据保护
您有一个 Cloud Storage 存储桶，其中包含您要进行去标识化处理的数据。
您知道如何向 DLP API 发送 HTTP 请求。如需了解详情，请参阅使用 DLP API 检查敏感文本。

了解此操作的限制和注意事项。

存储空间检查需要以下 OAuth 范围：https://www.googleapis.com/auth/cloud-platform。如需了解详情，请参阅对 DLP API 进行身份验证。

所需 IAM 角色

如果此操作的所有资源都在同一项目中，则只需在服务代理上拥有 DLP API Service Agent 角色 (roles/dlp.serviceAgent) 即可。拥有该角色后，您可以执行以下操作：

创建检查作业
读取输入目录中的文件
将去标识化文件写入输出目录
将转换详细信息写入 BigQuery 表

相关资源包括检查作业、去标识化模板、输入存储桶、输出存储桶和转换详细信息表。

如果您必须将资源放在不同的项目中，请确保您项目的服务代理还拥有以下角色：

输入存储桶或包含该存储桶的项目的 Storage Object Viewer 角色 (roles/storage.objectViewer)。
输出存储桶或包含该存储桶的项目的 Storage Object Creator 角色 (roles/storage.objectCreator)。
转换详细信息表或包含该表的项目中的 BigQuery Data Editor 角色 (roles/bigquery.dataEditor)。

如需向服务代理授予角色，请参阅授予单个角色。您还可以在以下级别控制访问权限：

API 概览

如需创建 Cloud Storage 中存储的内容的去标识化副本，您需要配置检查作业，以根据您指定的条件查找敏感数据。然后，在检查作业中，您以 Deidentify 操作的形式提供去标识化说明。

如果您只想扫描存储桶中的部分文件，可以限制作业扫描的文件。对于包含去标识化数据的作业，支持的选项包括按类型 (FileType) 和正则表达式 (FileSet) 进行文件过滤。

启用 Deidentify 操作后，默认情况下，Sensitive Data Protection 会为扫描中包含的所有受支持的文件类型创建去标识化（转换）副本。不过，您可以将作业配置为仅转换部分受支持的文件类型。

可选：创建去标识化模板

如果您想控制发现结果的转换方式，请创建以下模板。这些模板提供有关转换结构化文件、非结构化文件和图片中的发现结果的说明。

去标识化模板：用于非结构化文件（例如自由格式文本文件）的默认 DeidentifyTemplate。这种类型的 DeidentifyTemplate 不能包含 RecordTransformations 对象，该对象仅支持结构化内容。如果不存在此模板，敏感数据保护功能会使用 ReplaceWithInfoTypeConfig 方法转换非结构化文件。
结构化去标识化模板：用于结构化文件（例如 CSV 文件）的 DeidentifyTemplate。此 DeidentifyTemplate 可能包含 RecordTransformations。如果此模板不存在，Sensitive Data Protection 会使用您创建的默认去标识化模板。如果该属性也不存在，Sensitive Data Protection 会使用 ReplaceWithInfoTypeConfig 方法来转换结构化文件。
图片遮盖模板：要用于图片的 DeidentifyTemplate。此模板必须包含 ImageTransformations 对象。如果不存在此模板，Sensitive Data Protection 会使用黑色框遮盖图片中的所有发现结果。

详细了解如何创建去标识化模板。

创建包含去标识化操作的检查作业

DlpJob 对象提供有关检查内容、要标记为敏感的数据类型以及如何处理检查结果的说明。如需对 Cloud Storage 目录中的敏感数据进行去标识化处理，您的 DlpJob 必须至少定义以下内容：

一个 StorageConfig 对象，用于指定要检查的 Cloud Storage 目录。
一个 InspectConfig 对象，其中包含要查找的数据类型以及有关如何查找敏感数据的其他检查说明。
包含以下内容的 Deidentify 操作：
- 一个 TransformationConfig 对象，用于指定您为结构化和非结构化文件中的数据去标识化而创建的任何模板。您还可以添加配置，以遮盖图片中的敏感数据。
  
  如果您未添加 TransformationConfig 对象，敏感数据保护功能会将文本中的敏感数据替换为相应的 infoType。在图片中，它会使用黑框遮盖敏感数据。
- 一个 TransformationDetailsStorageConfig 对象，用于指定 BigQuery 表，敏感数据保护必须将有关每项转换的详细信息存储在该表中。对于每项转换，详细信息包括说明、成功或错误代码、任何错误详细信息、转换的字节数、转换后内容的位置，以及 Sensitive Data Protection 执行转换的检查作业的名称。此表不存储实际的去标识化内容。
当数据写入 BigQuery 表时，结算和配额用量将记在包含目标表的项目名下。

复制的内容去标识化后，去标识化作业即会完成。该作业包含指定转换的应用次数摘要，您可以使用 DlpJob 上的 projects.dlpJobs.get 方法检索该摘要。返回的 DlpJob 同时包含 DeidentifyDataSourceDetails 对象和 InspectDataSourceDetails 对象。这些对象分别包含 Deidentify 操作的结果和检查作业。

如果您在 DlpJob 中添加了 TransformationDetailsStorageConfig 对象，系统会创建一个包含转换详细信息元数据的 BigQuery 表。对于发生的每次转换，Sensitive Data Protection 都会向表中写入一行元数据。如需详细了解该表的内容，请参阅转换详细信息参考文档。

代码示例

以下示例演示了如何使用 DLP API 创建 Cloud Storage 文件的去标识化副本。

HTTP 方法和网址

POST https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs