根据数据剖析文件中的数据洞见,在 Data Catalog 中为表添加标记

此页面介绍了如何在敏感数据保护功能分析 BigQuery 表后自动将 Data Catalog 标记应用于这些表。本页还提供了一些示例查询,可用于在组织和项目中查找已添加标记的数据。

如果您想利用从 Sensitive Data Protection 数据配置文件中收集的分析洞见来丰富 Dataplex Universal Catalog 中手动整理的元数据,此功能会非常有用。生成的标记包含以下数据分析:

  • 在表格的列中检测到的信息类型 (infoType)infoTypes
  • 表的计算敏感度级别
  • 表的计算数据风险等级

借助 Sensitive Data Protection 数据分析文件中的数据分析,您可以利用 Dataplex Universal Catalog 发现组织中的敏感数据和高风险数据。您可以利用这些数据洞见,就如何管理和管控数据做出明智的决策。

如果您想将检查作业(而非数据分析操作)的结果发送到 Dataplex Universal Catalog,请改为参阅将 Sensitive Data Protection 检查结果发送到 Data Catalog

数据剖析文件简介

您可以配置敏感数据保护,以自动生成有关组织、文件夹或项目中的数据的分析文件。数据配置文件包含有关数据的指标和元数据,并可帮助您确定敏感数据和高风险数据所在的位置。敏感数据保护会报告不同详细程度的这些指标。如需了解可以分析的数据类型,请参阅支持的资源

Dataplex Universal Catalog 和 Data Catalog 简介

Dataplex Universal Catalog 是一项 Google Cloud 服务,可统一分布式数据并自动执行数据管理和治理。Data Catalog已弃用)是一项可伸缩的全代管式元数据管理服务。

借助 Data Catalog,您可以使用标记标记模板将业务元数据附加到数据中。然后,您可以在统一的服务中搜索和管理组织或项目的所有元数据。如需了解详情,请参阅标记和标记模板

工作原理

如果您的发现扫描配置已启用以标记形式发送到 Dataplex 操作,Sensitive Data Protection 每次对数据进行分析时都会执行以下操作。此操作仅适用于新个人资料和更新后的个人资料。 未更新的现有个人资料不会发送到 Dataplex Universal Catalog。

  1. 创建包含将附加到 BigQuery 表的标记的架构的私有标记模板。如需了解标记模板的名称、ID 和位置,请参阅标记模板详情

    只有具有适当角色和权限的主账号才能查看标记模板。

  2. 为分析的每个 BigQuery 表创建标记。该标记基于新创建的标记模板。

    例如,附加到表的结果标记可以具有以下元数据:

    显示名称
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

如果通过以下两种方式对表进行了分析,则该表会有两个标记:

  • 组织级或文件夹级扫描配置
  • 项目级扫描配置

为表格添加标记后,您可以在 Dataplex Universal Catalog 中搜索组织或项目内具有特定标记值的所有数据。

标记模板详情

模板名称、模板 ID 和存储新代码模板的项目取决于扫描配置所涉及的资源。

  • 如果扫描配置是组织级或文件夹级配置,则标记模板存储在服务代理容器中。标记模板的名称为 Sensitive Data Profile。其模板 ID 为 sensitive_data_profile
  • 如果扫描配置是项目级配置,则标记模板会存储在要进行分析的项目中。标记模板的名称为 Sensitive Data Profile (Project)。其模板 ID 为 sensitive_data_profile_project

价格

如需了解其他 Google Cloud 服务可能会如何向您收取导出数据资料的费用,请参阅导出数据资料的价格

根据数据分析文件自动标记 BigQuery 表

  1. 创建扫描配置。或者,修改现有扫描配置。

  2. 添加操作这一步中,确保以标记形式发送到 Dataplex 处于开启状态。

    • 如果您要创建扫描配置,此操作默认处于启用状态。
    • 如果您要修改扫描配置,则必须启用此操作。

对数据进行分析和标记后,您就可以开始在 Dataplex Universal Catalog 中搜索已标记的数据了。

查看标记的角色和权限

Dataplex Universal Catalog 搜索结果仅显示您有权访问的数据。您需要拥有以下 Identity and Access Management (IAM) 角色或权限,才能搜索附加到 BigQuery 表的标记。

用途 预定义角色 相关权限
查看专用标记模板 Data Catalog TagTemplate Viewer (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
查看应用于 BigQuery 表的标记 BigQuery Metadata Viewer (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

如需详细了解 Dataplex Universal Catalog 角色,请参阅查看公开和私密标记所需的角色

如需了解如何授予预定义角色,请参阅授予单个角色。如果您想使用自定义角色而不是预定义角色,请确保自定义角色具有相关权限。如需了解详情,请参阅创建自定义角色

查找生成的标记模板

  1. 在 Google Cloud 控制台中,前往 Dataplex Universal Catalog 标记模板页面。

    转到“标记模板”

  2. 在列表中找到相应标记模板。如需了解标记模板的名称、ID 和位置,请参阅标记模板详情

  3. 可选:如需查找由指定发现扫描配置生成的标记模板,请在过滤条件字段中输入以下内容:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    替换以下内容:

    • PROJECT_ID:与扫描配置关联的项目的 ID。如果您在组织级或文件夹级层分析了数据,请输入服务代理容器的项目 ID。
    • TAG_TEMPLATE_ID:如果扫描配置是针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置是针对项目,则为 sensitive_data_profile_project

查找给定表格数据分析生成的标记

  1. 在 Google Cloud 控制台中,前往 Dataplex Universal Catalog 搜索页面。

    转到搜索

  2. 搜索字段中,输入以下内容:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    替换以下内容:

    • TABLE_ID:已分析的表的 ID。
    • PROJECT_ID:包含代码模板的项目的 ID。如果您在组织级或文件夹级层分析了数据,请输入服务代理容器的项目 ID。
    • TAG_TEMPLATE_ID:如果扫描配置是针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置是针对项目,则为 sensitive_data_profile_project
  3. 在随即显示的列表中,点击表格 ID。BigQuery 表的详细信息会显示出来,同时还会显示附加到该表的任何 Sensitive Data ProfileSensitive Data Profile (Project) 标记。

    如果通过以下两种方式对表进行了分析,则该表会有两个标记:

    • 组织级或文件夹级扫描配置
    • 项目级扫描配置

如需了解如何通过 Data Catalog API 执行搜索,请参阅如何搜索数据资产

搜索查询示例

本部分提供了一些示例搜索查询,您可以在 Dataplex Universal Catalog 中使用这些查询来查找组织或项目中具有特定标记值的数据。

您只能找到自己有权访问的数据。数据访问权限通过 IAM 权限进行控制。如需了解详情,请参阅本页中的查看标记的角色和权限

您可以在 Google Cloud 控制台中的 Dataplex Universal Catalog 搜索页面中输入这些查询。

转到搜索

如需了解如何构建查询,请参阅 Data Catalog 搜索语法。如需了解如何通过 Data Catalog API 执行搜索,请参阅如何搜索数据资产

查找使用新标记模板标记的所有表格

tag:PROJECT_ID.TAG_TEMPLATE_ID

替换以下内容:

  • PROJECT_ID:包含代码模板的项目的 ID。如果您在组织级或文件夹级层分析了数据,请输入服务代理容器的项目 ID。
  • TAG_TEMPLATE_ID:如果扫描配置是针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置是针对项目,则为 sensitive_data_profile_project

本页上的后续示例不包含项目 ID,因此您可能会获得与各种发现扫描配置相关联的结果。如需将结果限制为特定扫描配置,请按此示例所示将项目 ID 添加到查询中。

查找上次分析时间早于指定日期的所有表

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置是针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置是针对项目,则为 sensitive_data_profile_project
  • DATE:日期,格式为 YYYY-MM-DD,例如 2023-01-15

查找具有指定表级敏感度得分的所有表

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置是针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置是针对项目,则为 sensitive_data_profile_project
  • SENSITIVITY_SCOREHIGHMODERATELOW 之一。

如需了解详情,请参阅数据风险和敏感度级别

查找具有指定数据风险级别的所有表

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置是针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置是针对项目,则为 sensitive_data_profile_project
  • DATA_RISK_LEVELHIGHMODERATELOW 之一。

如需了解详情,请参阅数据风险和敏感度级别

查找包含指定预测 infoType 的所有表格

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置是针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置是针对项目,则为 sensitive_data_profile_project
  • INFOTYPE:infoType,例如 PERSON_NAME

如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档

如需了解详情,请参阅指标参考中的预测的 infoType

查找部分包含指定 infoType 的所有表格

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置是针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置是针对项目,则为 sensitive_data_profile_project
  • INFOTYPE:infoType,例如 PERSON_NAME

如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档

如需了解详情,请参阅指标参考中的其他 infoType

查找包含具有指定预测 infoType 的指定列的所有表

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置是针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置是针对项目,则为 sensitive_data_profile_project
  • COLUMN_NAME:BigQuery 表中的列名称。
  • INFOTYPE:infoType,例如 PERSON_NAME

如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档

如需了解详情,请参阅指标参考中的预测的 infoType

查找包含具有指定列级敏感度得分的指定列的所有表

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置是针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置是针对项目,则为 sensitive_data_profile_project
  • COLUMN_NAME:BigQuery 表中的列名称。
  • SENSITIVITY_SCOREHIGHMODERATELOW 之一。

如需了解详情,请参阅数据风险和敏感度级别

截断的标记值

如果 BigQuery 表的列标题数据超过 10 MB,则生成的标记可能会在 Column InsightsColumn Sensitivity 字段中显示 [TRUNCATED]。在这种情况下,我们建议您前往 Sensitive Data Protection,查看表数据分析和关联的列数据分析。