根据数据分析中的洞见为 Dataplex 中的表格添加标记

本页介绍了在敏感数据保护对 BigQuery 表进行分析后,如何自动将 Dataplex 标记应用于这些表。本页还提供了示例查询,您可以使用这些查询在组织和项目中查找添加了标记的数据。

如果您想使用从敏感数据保护数据配置文件中收集的洞见来丰富 Dataplex 中手动管理的元数据,此功能非常有用。生成的代码包含以下数据分析:

  • 在表的列中检测到的信息类型 (infoTypes)
  • 表的计算得出的敏感度级别
  • 表的计算得出的数据风险级别

敏感数据保护数据分析文件中的数据分析有助于您使用 Dataplex 发现组织中的敏感数据和高风险数据。利用这些数据分析,您可以做出明智的决策,决定如何管理和治理数据。

如果您想将检查作业(而非数据分析操作)的结果发送到 Dataplex,请改为参阅将敏感数据保护检查结果发送到 Data Catalog

数据分析文件简介

您可以配置敏感数据保护,以自动生成有关组织、文件夹或项目中数据的配置文件。数据分析文件包含有关数据的指标和元数据,可帮助您确定敏感数据和高风险数据所在的位置。敏感数据保护会以不同详细级别报告这些指标。如需了解您可以分析的数据类型,请参阅支持的资源

Dataplex 和 Data Catalog 简介

Dataplex 是一项 Google Cloud 服务,可统一分布式数据,并自动执行对这些数据的数据管理和治理。Data Catalog 是 Dataplex 中的全代管式可伸缩元数据管理服务。

借助 Data Catalog,您可以使用标记标记模板将业务元数据附加到数据。然后,您可以在统一的服务中搜索和管理组织或项目的所有元数据。如需了解详情,请参阅标记和标记模板

工作原理

如果您的发现扫描配置启用了以标记的形式发送到 Dataplex 操作,那么 Sensitive Data Protection 每次对您的数据进行配置文件分析时都会执行以下操作。此操作仅适用于新建和更新的个人资料。系统不会将未更新的现有配置文件发送到 Dataplex。

  1. 创建私有标记模板,其中包含将附加到 BigQuery 表的标记的架构。如需了解标记模板的名称、ID 和位置,请参阅标记模板详情

    只有具有适当角色和权限的主账号才能查看标记模板。

  2. 为您分析的每个 BigQuery 表创建一个标记。该代码基于新创建的代码模板。

    例如,附加到表格的生成标记可以具有以下元数据:

    显示名称
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

如果某个表通过以下两种方式进行了分析,则该表会具有两个标记:

  • 组织级或文件夹级扫描配置
  • 项目级扫描配置

为表添加标记后,您可以在 Dataplex 中搜索贵组织或项目中具有特定标记值的所有数据。

代码模板详情

模板名称、模板 ID 和存储新代码模板的项目取决于扫描配置所属的资源。

  • 如果扫描配置是组织级或文件夹级配置,则标记模板会存储在服务代理容器中。代码模板的名称为 Sensitive Data Profile。其模板 ID 为 sensitive_data_profile
  • 如果扫描配置是项目级配置,则标记模板会存储在要分析的项目中。代码模板的名称为 Sensitive Data Profile (Project)。其模板 ID 为 sensitive_data_profile_project

价格

如需了解其他 Google Cloud 服务在您导出数据剖析结果时可能会收取的费用,请参阅导出数据剖析结果的价格

根据数据分析文件自动为 BigQuery 表添加标记

  1. 创建扫描配置。或者,修改现有扫描配置。

  2. 添加操作步骤中,确保以标记形式发送到 Dataplex 处于开启状态。

    • 如果您要创建扫描配置,此操作默认处于启用状态。
    • 如果您要修改扫描配置,则必须启用此操作。

对数据进行分析和标记后,您就可以开始在 Dataplex 中搜索标记数据了。

用于查看代码的角色和权限

Dataplex 搜索结果仅会显示您有权访问的数据。您需要拥有以下 Identity and Access Management (IAM) 角色或权限,才能搜索附加到 BigQuery 表的标记。

用途 预定义角色 相关权限
查看专用标记模板 Data Catalog TagTemplate Viewer (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
查看应用于 BigQuery 表的标记 BigQuery Metadata Viewer (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

如需详细了解 Dataplex 角色,请参阅用于查看公开和私有标记的角色

如需了解如何授予预定义角色,请参阅授予单个角色。如果您想使用自定义角色而非预定义角色,请确保自定义角色具有相关权限。如需了解详情,请参阅创建自定义角色

查找生成的代码模板

  1. 在 Google Cloud 控制台中,前往 Dataplex 的标记模板页面。

    转到“标记模板”

  2. 在列表中,找到相应标记模板。如需了解标记模板的名称、ID 和位置,请参阅标记模板详情

  3. 可选:如需查找由给定发现扫描配置生成的代码模板,请在过滤条件字段中输入以下内容:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    替换以下内容:

    • PROJECT_ID:与扫描配置关联的项目的 ID。如果您在组织级或文件夹级分析了数据,请输入服务代理容器的项目 ID。
    • TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project

查找为给定表数据配置文件生成的代码

  1. 在 Google Cloud 控制台中,前往 Dataplex 搜索页面。

    转到搜索

  2. 搜索字段中,输入以下内容:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    替换以下内容:

    • TABLE_ID:经过性能分析的表的 ID。
    • PROJECT_ID:包含代码模板的项目的 ID。如果您在组织级或文件夹级分析了数据,请输入服务代理容器的项目 ID。
    • TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  3. 在随即显示的列表中,点击表 ID。BigQuery 表的详细信息会随附加到它的任何 Sensitive Data ProfileSensitive Data Profile (Project) 标记一起显示。

    如果某个表通过以下两种方式进行了分析,则该表会具有两个标记:

    • 组织级或文件夹级扫描配置
    • 项目级扫描配置

如需了解如何通过 Data Catalog API 执行搜索,请参阅如何搜索数据资产

搜索查询示例

本部分提供了搜索查询示例,您可以在 Dataplex 中使用这些查询,在组织或项目中查找具有特定标记值的数据。

您只能查看自己有权访问的数据。数据访问权限通过 IAM 权限进行控制。如需了解详情,请参阅本页中的用于查看代码的角色和权限

您可以在 Google Cloud 控制台中的 Dataplex 搜索页面中输入这些查询。

转到搜索

如需了解如何构建查询,请参阅 Data Catalog 搜索语法。如需了解如何通过 Data Catalog API 执行搜索,请参阅如何搜索数据资产

查找使用新标记模板标记的所有表

tag:PROJECT_ID.TAG_TEMPLATE_ID

替换以下内容:

  • PROJECT_ID:包含代码模板的项目的 ID。如果您在组织级或文件夹级分析了数据,请输入服务代理容器的项目 ID。
  • TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project

本页中的后续示例不包含项目 ID,因此您可能会获得与各种发现扫描配置相关的结果。如需将结果限制为特定扫描配置,请将项目 ID 添加到查询中,如以下示例所示。

查找上次分析日期在给定日期之前的所有表

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • DATE:格式为 YYYY-MM-DD 的日期,例如 2023-01-15

查找具有给定表级敏感度得分的所有表

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • SENSITIVITY_SCOREHIGHMODERATELOW 之一。

如需了解详情,请参阅数据风险和敏感度级别

查找具有给定数据风险级别的所有表

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • DATA_RISK_LEVELHIGHMODERATELOW 之一。

如需了解详情,请参阅数据风险和敏感度级别

查找包含给定预测 infoType 的所有表

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • INFOTYPE:infoType,例如 PERSON_NAME

如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档

如需了解详情,请参阅指标参考文档中的预测的 infoType

查找部分包含给定 infoType 的所有表

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • INFOTYPE:infoType,例如 PERSON_NAME

如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档

如需了解详情,请参阅指标参考文档中的其他 infoTypes

查找包含给定预测 infoType 的给定列的所有表

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • COLUMN_NAME:BigQuery 表中的列名称。
  • INFOTYPE:infoType,例如 PERSON_NAME

如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档

如需了解详情,请参阅指标参考文档中的预测的 infoType

查找包含具有给定列级敏感度得分的给定列的所有表

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • COLUMN_NAME:BigQuery 表中的列名称。
  • SENSITIVITY_SCOREHIGHMODERATELOW 之一。

如需了解详情,请参阅数据风险和敏感度级别

截断的标记值

如果 BigQuery 表的列标题数据超过 10 MB,生成的标记可能会在 Column InsightsColumn Sensitivity 字段中显示 [TRUNCATED]。在这种情况下,我们建议您前往“敏感数据保护”页面,查看表数据配置文件和关联的列数据配置文件。