本页介绍了在敏感数据保护对 BigQuery 表进行分析后,如何自动将 Dataplex 标记应用于这些表。本页还提供了示例查询,您可以使用这些查询在组织和项目中查找添加了标记的数据。
如果您想使用从敏感数据保护数据配置文件中收集的洞见来丰富 Dataplex 中手动管理的元数据,此功能非常有用。生成的代码包含以下数据分析:
- 在表的列中检测到的信息类型 (infoTypes)
- 表的计算得出的敏感度级别
- 表的计算得出的数据风险级别
敏感数据保护数据分析文件中的数据分析有助于您使用 Dataplex 发现组织中的敏感数据和高风险数据。利用这些数据分析,您可以做出明智的决策,决定如何管理和治理数据。
如果您想将检查作业(而非数据分析操作)的结果发送到 Dataplex,请改为参阅将敏感数据保护检查结果发送到 Data Catalog。
数据分析文件简介
您可以配置敏感数据保护,以自动生成有关组织、文件夹或项目中数据的配置文件。数据分析文件包含有关数据的指标和元数据,可帮助您确定敏感数据和高风险数据所在的位置。敏感数据保护会以不同详细级别报告这些指标。如需了解您可以分析的数据类型,请参阅支持的资源。
Dataplex 和 Data Catalog 简介
Dataplex 是一项 Google Cloud 服务,可统一分布式数据,并自动执行对这些数据的数据管理和治理。Data Catalog 是 Dataplex 中的全代管式可伸缩元数据管理服务。
借助 Data Catalog,您可以使用标记和标记模板将业务元数据附加到数据。然后,您可以在统一的服务中搜索和管理组织或项目的所有元数据。如需了解详情,请参阅标记和标记模板。
工作原理
如果您的发现扫描配置启用了以标记的形式发送到 Dataplex 操作,那么 Sensitive Data Protection 每次对您的数据进行配置文件分析时都会执行以下操作。此操作仅适用于新建和更新的个人资料。系统不会将未更新的现有配置文件发送到 Dataplex。
创建私有标记模板,其中包含将附加到 BigQuery 表的标记的架构。如需了解标记模板的名称、ID 和位置,请参阅标记模板详情。
只有具有适当角色和权限的主账号才能查看标记模板。
为您分析的每个 BigQuery 表创建一个标记。该代码基于新创建的代码模板。
例如,附加到表格的生成标记可以具有以下元数据:
显示名称 值 Column Insights
ccn: CREDIT_CARD_NUMBER
first_name: PERSON_NAME
last_name: PERSON_NAME
ssn: US_SOCIAL_SECURITY_NUMBER
email: EMAIL_ADDRESS
Column Sensitivity
ccn: HIGH
first_name: MODERATE
last_name: MODERATE
favorite_animal: LOW
ssn: HIGH
email: MODERATE
id: LOW
Data Risk Level
HIGH
Other InfoTypes
PHONE_NUMBER
Predicted InfoTypes
CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
Profile Last Generated
DATE at TIME
Sensitive Data Profile
organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
Sensitivity Score
HIGH
如果某个表通过以下两种方式进行了分析,则该表会具有两个标记:
- 组织级或文件夹级扫描配置
- 项目级扫描配置
为表添加标记后,您可以在 Dataplex 中搜索贵组织或项目中具有特定标记值的所有数据。
代码模板详情
模板名称、模板 ID 和存储新代码模板的项目取决于扫描配置所属的资源。
- 如果扫描配置是组织级或文件夹级配置,则标记模板会存储在服务代理容器中。代码模板的名称为
Sensitive Data Profile
。其模板 ID 为sensitive_data_profile
。 - 如果扫描配置是项目级配置,则标记模板会存储在要分析的项目中。代码模板的名称为
Sensitive Data Profile (Project)
。其模板 ID 为sensitive_data_profile_project
。
价格
如需了解其他 Google Cloud 服务在您导出数据剖析结果时可能会收取的费用,请参阅导出数据剖析结果的价格。
根据数据分析文件自动为 BigQuery 表添加标记
创建扫描配置。或者,修改现有扫描配置。
- 如需在组织或文件夹级层创建扫描配置,请参阅分析组织或文件夹中的数据。
- 如需在项目级层创建扫描配置,请参阅分析单个项目中的数据。
在添加操作步骤中,确保以标记形式发送到 Dataplex 处于开启状态。
- 如果您要创建扫描配置,此操作默认处于启用状态。
- 如果您要修改扫描配置,则必须启用此操作。
对数据进行分析和标记后,您就可以开始在 Dataplex 中搜索标记数据了。
用于查看代码的角色和权限
Dataplex 搜索结果仅会显示您有权访问的数据。您需要拥有以下 Identity and Access Management (IAM) 角色或权限,才能搜索附加到 BigQuery 表的标记。
用途 | 预定义角色 | 相关权限 |
---|---|---|
查看专用标记模板 | Data Catalog TagTemplate Viewer (roles/datacatalog.tagTemplateViewer ) |
datacatalog.tagTemplates.getTag |
查看应用于 BigQuery 表的标记 | BigQuery Metadata Viewer (roles/bigquery.metadataViewer ) |
bigquery.datasets.get bigquery.tables.get |
如需详细了解 Dataplex 角色,请参阅用于查看公开和私有标记的角色。
如需了解如何授予预定义角色,请参阅授予单个角色。如果您想使用自定义角色而非预定义角色,请确保自定义角色具有相关权限。如需了解详情,请参阅创建自定义角色。
查找生成的代码模板
在 Google Cloud 控制台中,前往 Dataplex 的标记模板页面。
在列表中,找到相应标记模板。如需了解标记模板的名称、ID 和位置,请参阅标记模板详情。
可选:如需查找由给定发现扫描配置生成的代码模板,请在过滤条件字段中输入以下内容:
name:PROJECT_ID.TAG_TEMPLATE_ID
替换以下内容:
- PROJECT_ID:与扫描配置关联的项目的 ID。如果您在组织级或文件夹级分析了数据,请输入服务代理容器的项目 ID。
- TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为
sensitive_data_profile
;如果扫描配置适用于项目,则为sensitive_data_profile_project
。
查找为给定表数据配置文件生成的代码
在 Google Cloud 控制台中,前往 Dataplex 搜索页面。
在搜索字段中,输入以下内容:
name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
替换以下内容:
- TABLE_ID:经过性能分析的表的 ID。
- PROJECT_ID:包含代码模板的项目的 ID。如果您在组织级或文件夹级分析了数据,请输入服务代理容器的项目 ID。
- TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为
sensitive_data_profile
;如果扫描配置适用于项目,则为sensitive_data_profile_project
。
在随即显示的列表中,点击表 ID。BigQuery 表的详细信息会随附加到它的任何
Sensitive Data Profile
或Sensitive Data Profile (Project)
标记一起显示。如果某个表通过以下两种方式进行了分析,则该表会具有两个标记:
- 组织级或文件夹级扫描配置
- 项目级扫描配置
如需了解如何通过 Data Catalog API 执行搜索,请参阅如何搜索数据资产。
搜索查询示例
本部分提供了搜索查询示例,您可以在 Dataplex 中使用这些查询,在组织或项目中查找具有特定标记值的数据。
您只能查看自己有权访问的数据。数据访问权限通过 IAM 权限进行控制。如需了解详情,请参阅本页中的用于查看代码的角色和权限。
您可以在 Google Cloud 控制台中的 Dataplex 搜索页面中输入这些查询。
如需了解如何构建查询,请参阅 Data Catalog 搜索语法。如需了解如何通过 Data Catalog API 执行搜索,请参阅如何搜索数据资产。
查找使用新标记模板标记的所有表
tag:PROJECT_ID.TAG_TEMPLATE_ID
替换以下内容:
- PROJECT_ID:包含代码模板的项目的 ID。如果您在组织级或文件夹级分析了数据,请输入服务代理容器的项目 ID。
- TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为
sensitive_data_profile
;如果扫描配置适用于项目,则为sensitive_data_profile_project
。
本页中的后续示例不包含项目 ID,因此您可能会获得与各种发现扫描配置相关的结果。如需将结果限制为特定扫描配置,请将项目 ID 添加到查询中,如以下示例所示。
查找上次分析日期在给定日期之前的所有表
tag:TAG_TEMPLATE_ID.profile_last_generated<DATE
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为
sensitive_data_profile
;如果扫描配置适用于项目,则为sensitive_data_profile_project
。 - DATE:格式为
YYYY-MM-DD
的日期,例如2023-01-15
。
查找具有给定表级敏感度得分的所有表
tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为
sensitive_data_profile
;如果扫描配置适用于项目,则为sensitive_data_profile_project
。 - SENSITIVITY_SCORE:
HIGH
、MODERATE
或LOW
之一。
如需了解详情,请参阅数据风险和敏感度级别。
查找具有给定数据风险级别的所有表
tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为
sensitive_data_profile
;如果扫描配置适用于项目,则为sensitive_data_profile_project
。 - DATA_RISK_LEVEL:
HIGH
、MODERATE
或LOW
之一。
如需了解详情,请参阅数据风险和敏感度级别。
查找包含给定预测 infoType 的所有表
tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为
sensitive_data_profile
;如果扫描配置适用于项目,则为sensitive_data_profile_project
。 - INFOTYPE:infoType,例如
PERSON_NAME
。
如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档。
如需了解详情,请参阅指标参考文档中的预测的 infoType。
查找部分包含给定 infoType 的所有表
tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为
sensitive_data_profile
;如果扫描配置适用于项目,则为sensitive_data_profile_project
。 - INFOTYPE:infoType,例如
PERSON_NAME
。
如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档。
如需了解详情,请参阅指标参考文档中的其他 infoTypes。
查找包含给定预测 infoType 的给定列的所有表
tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为
sensitive_data_profile
;如果扫描配置适用于项目,则为sensitive_data_profile_project
。 - COLUMN_NAME:BigQuery 表中的列名称。
- INFOTYPE:infoType,例如
PERSON_NAME
。
如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档。
如需了解详情,请参阅指标参考文档中的预测的 infoType。
查找包含具有给定列级敏感度得分的给定列的所有表
tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为
sensitive_data_profile
;如果扫描配置适用于项目,则为sensitive_data_profile_project
。 - COLUMN_NAME:BigQuery 表中的列名称。
- SENSITIVITY_SCORE:
HIGH
、MODERATE
或LOW
之一。
如需了解详情,请参阅数据风险和敏感度级别。
截断的标记值
如果 BigQuery 表的列标题数据超过 10 MB,生成的标记可能会在 Column Insights
或 Column
Sensitivity
字段中显示 [TRUNCATED]
。在这种情况下,我们建议您前往“敏感数据保护”页面,查看表数据配置文件和关联的列数据配置文件。