Dataplex Universal Catalog 中的数据目录管理简介

Dataplex Universal Catalog 提供了一个用于存储、管理和访问元数据的中央平台。本文档介绍了 Dataplex Universal Catalog 的元数据管理功能。

Dataplex Universal Catalog 提供Google Cloud 和本地资源的统一清单。Dataplex Universal Catalog 会自动检索并存储 Google Cloud 资源的元数据。您还可以将第三方资源的自有元数据导入 Dataplex Universal Catalog。

您可以使用其他业务和技术元数据来丰富商品目录,这些元数据可捕获有关资源的上下文和知识。您还可以搜索和发现组织中的数据,并对数据资产启用数据治理。

您可以将默认目录体验设置为 Dataplex Universal Catalog。 如果您使用的是 Data Catalog,请将独立 Data Catalog 内容和用法转换到 Dataplex Universal Catalog。如需了解详情,请参阅从 Data Catalog 转换到 Dataplex Universal Catalog

使用场景

您可以使用 Dataplex Universal Catalog 执行以下操作:

  • 发现和了解数据。Dataplex Universal Catalog 可让您了解整个组织的数据资源。借助该功能,您可以找到满足数据消耗需求的资源。它为数据资源提供背景信息,帮助您了解数据资源是否适合数据消费者的需求。

  • 启用数据治理和数据管理。Dataplex Universal Catalog 提供元数据,可为您的数据治理和数据管理功能提供信息和支持。

  • 维护一个可扩展且全面的元数据存储库。 Dataplex Universal Catalog 会存储并提供对从 Google Cloud 资源自动收集的元数据的访问权限。您可以集成来自非Google Cloud 系统的自有元数据。您可以使用其他业务和技术元数据注解来丰富所有元数据。

Dataplex Universal Catalog 中的元数据管理功能如何运作

Dataplex Universal Catalog 中的元数据管理功能基于以下概念:

  • 条目:条目表示数据资产。大多数元数据都由条目中的方面来描述。这类似于 Data Catalog 中的条目。如需了解详情,请参阅条目

  • 方面:方面是指条目内的一组相关元数据字段。 方面可以解释为条目的组成要素,也可以解释为条目的附加元数据。这与 Data Catalog 中的标记类似,但切面存储在条目中,而不是作为独立资源。如需了解详情,请参阅切面

  • 切面类型:切面类型是可重复使用的切面模板。每个方面都是相应方面类型的实例。这类似于 Data Catalog 中的标记模板。如需了解详情,请参阅方面类型

  • 条目组:条目组是条目的容器,可作为这些条目的管理单元。例如,使用条目组为条目组中的条目配置 Identity and Access Management 访问权限控制、项目归因或位置信息。这类似于 Data Catalog 中的条目组。如需了解详情,请参阅条目组

  • 条目类型:条目类型是用于创建条目的模板。它确立了基本元数据元素,并以列表的形式列出了此类条目的必需切面。如需了解详情,请参阅条目类型

    条目和条目组
    图 1:条目和条目组
    切面类型和条目类型
    图 2. 切面类型和条目类型

以下是 Dataplex Universal Catalog 中元数据管理功能的一些使用情形:

  • 作为数据分析师或业务分析师,您可以搜索组织中的条目,并探索与这些条目相关联的元数据。如需了解详情,请参阅搜索数据资产
  • 作为数据所有者或数据治理员,您可以通过使用切面为条目添加注释来捕获其他技术和业务元数据。如需了解详情,请参阅管理切面并丰富元数据。如需了解如何管理业务术语,请参阅管理术语表
  • 作为数据所有者或数据治理员,您可以通过定义注解(使用方面类型)、业务术语表(使用类别和业务术语)和自定义条目(使用条目类型)的标准,使元数据保持一致。如需了解详情,请参阅管理切面并丰富元数据管理业务术语表
  • 作为数据工程师,您可以拥有统一的资源清单,其中包括 Google Cloud 资源和第三方系统中的资源。Google Cloud 资源由 Dataplex Universal Catalog 自动收集,而非Google Cloud 资源则由您收集。如需了解详情,请参阅管理条目和注入自定义来源

对于现有 Data Catalog 用户

如果您已在使用 Data Catalog,请注意以下事项:

  • 您在 Data Catalog 中创建的自定义条目、概览上下文、术语库和条目组可在 Dataplex Universal Catalog 中使用。
  • 作为管理员,您可以选择让 Data Catalog 标记模板和标记的内容同时在 Dataplex Universal Catalog 中提供。如需了解详情,请参阅从 Data Catalog 转换到 Dataplex Universal Catalog
  • 在 Dataplex Universal Catalog 中搜索数据资产时,系统会同时搜索直接在 Dataplex Universal Catalog 中创建的元数据,以及从 Data Catalog 引入到 Dataplex Universal Catalog 中的元数据。
  • 在 Data Catalog 中搜索数据资产时,系统只会纳入在 Data Catalog 中创建的元数据。
  • Data Catalog 中超过 1,024 个字符的条目组说明在 Dataplex Universal Catalog 中会被截断为 1,024 个字符。
  • 作为管理员,如需在 Dataplex Universal Catalog 中提供您在 Data Catalog 中创建的术语库以及业务术语与列之间的关联链接,请按照转换流程操作。

如需详细了解如何将独立 Data Catalog 内容和使用情况迁移到 Dataplex Universal Catalog,请参阅从 Data Catalog 迁移到 Dataplex Universal Catalog

Dataplex Universal Catalog 与 Data Catalog 的对比

Dataplex Universal Catalog 提供集成功能来管理元数据。元数据存储和 API 方法已集成到 Dataplex API 中。

Dataplex Universal Catalog 中的主要元数据管理功能包括:

  • 更强大的元模型

    • 输入条目。您可以为自定义条目定义必需的元数据内容,从而强制执行最低元数据标准
    • 用于自定义条目的用户可配置元模型,有助于使自定义提取更可靠,并提高自定义元数据的一致性和全面性。
    • 支持更多种类和更复杂的元数据,包括支持列表、映射和数组等嵌套结构。
  • 提高了可伸缩性,包括能够通过单个原子 CRUD 操作与条目关联的所有元数据进行交互,以及能够在搜索或列表响应中提取关联的多个元数据注释。

下表比较了 Dataplex Universal Catalog 和 Data Catalog 的元数据管理功能:

Dataplex Universal Catalog 与 Data Catalog 之间的比较
功能 Dataplex Universal Catalog Data Catalog
支持的 Google Cloud 来源 本文档的支持的 Google Cloud 来源部分中所述的所有来源。 条目和条目组中描述的所有来源。
自定义来源提取

以受控结构(由条目类型定义)将数据汲取到自定义条目中。

Data Catalog 自定义条目和条目组在 Dataplex Universal Catalog 中以 generic 条目类型的形式提供。

提取到通用自定义条目中。
元数据丰富化 条目的元数据上下文通过业务术语库、方面和方面类型来捕获。 条目的元数据上下文通过业务术语表、标记和标记模板来捕获。
搜索 搜索范围包括以下内容:
  • 支持的 Google Cloud 来源中描述的所有 Google Cloud 来源
  • 在 Dataplex Universal Catalog 中创建的自定义条目
  • 在 Dataplex Universal Catalog 中创建的切面
  • 在 Data Catalog 中创建并导入 Dataplex Universal Catalog 中的自定义条目

搜索结果仅包含与执行搜索的项目属于同一组织和同一 VPC-SC 边界的资源。使用 Google Cloud 控制台时,这是在控制台中选择的项目。

请注意,如需搜索条目,您需要对用于搜索的项目至少拥有以下一个 IAM 角色:Dataplex Catalog Admin、Dataplex Catalog Editor 或 Dataplex Catalog Viewer。搜索结果的权限检查独立于所选项目。

搜索范围包括以下内容:
  • 条目和条目组中描述的所有 Google Cloud 来源
  • 在 Data Catalog 中创建的自定义条目
  • 在 Data Catalog 中创建的标记
数据沿袭

数据沿袭使用 Dataplex API 检索资产节点的条目详细信息。

Google Cloud 控制台会显示附加的方面。

数据沿袭通过使用 Data Catalog API 检索资产节点的条目详细信息。

业务术语表

借助业务术语表,您可以为业务术语构建分类,并将这些术语与数据资产和列相关联。您可以使用搜索功能来发现与某个术语相关联的资源。

借助业务术语库,您可以为业务术语构建分类,并将它们与列相关联。您可以使用搜索功能来发现与某个术语相关联的资源。

下表介绍了 Dataplex Universal Catalog 中的资源与 Data Catalog 资源之间的对应关系:

Dataplex Universal Catalog 与 Data Catalog 资源之间的映射
Dataplex Universal Catalog 资源 Data Catalog 资源 说明
切面类型 (global) 公开标记模板 标记模板属于区域级资源。不过,您可以使用它们区域创建标记。标记模板对应于 Dataplex Universal Catalog 中的 global 切面类型。
可选方面 公开标记 Data Catalog 中的公开标记对应于 Dataplex Universal Catalog 中的可选切面。
条目组 条目组 对于 Google Cloud 来源,系统条目组(例如 @bigquery)是在 Dataplex Universal Catalog 中按项目建立的。
自定义条目所需的切面 自定义条目

Data Catalog 和 Dataplex Universal Catalog 在自定义条目方面有相似的概念。

标准条目属性在 Dataplex Universal Catalog 中建模为必需切面。

系统条目所需的切面 系统 (Google Cloud) 条目 描述内置实体(例如 BigQuery 表的 Schema)的元数据会捕获在系统定义的方面类型的必需方面中。
业务术语表 业务术语表 使用术语表构建业务术语分类,从而在整个企业内标准化业务情境。

如需详细了解 Data Catalog 中提供但在 Dataplex Universal Catalog 中不受支持的功能,请参阅本文档中的Dataplex Universal Catalog 不支持的元数据管理功能部分。

支持的来源

  • 自动发现 Cloud Storage 数据
  • 以下 Google Cloud 来源的元数据会自动注入到 Dataplex Universal Catalog 中:
    • BigQuery Sharing(以前称为 Analytics Hub)交换和产品详情
    • BigQuery 数据集、表、模型、日常安排、连接和关联的数据集
    • Bigtable 实例、集群和表(包括列族详细信息)
    • Dataform 代码库和代码资产
    • Cloud SQL 实例、数据库、架构、表、视图 - 请参阅启用 Cloud SQL 集成
    • Dataproc Metastore 服务、数据库和表
    • Pub/Sub 主题
    • Spanner 实例、数据库、表和视图
    • Vertex AI 模型、数据集、特征组、特征视图和在线存储区实例

如需将元数据从第三方来源导入 Dataplex Universal Catalog,您可以使用托管式连接流水线

项目和位置限制

Dataplex Universal Catalog 中的目录资源位于各种项目和位置中。存在以下限制:

  • 位置:

    • 条目的位置必须与条目类型的位置一致,或者条目类型必须为 global
    • 添加到条目的切面必须基于与条目存储在同一位置的切面类型,或者切面类型必须为 global
    • 条目类型必须由存储在与条目类型相同位置的切面类型组成。
  • 项目:

    • 如果条目类型引用了自定义切面类型,则这些切面类型必须与条目类型位于同一位置和项目中。

Dataplex Universal Catalog 不支持的元数据管理功能

Data Catalog 中提供的以下功能在 Dataplex Universal Catalog 中不受支持:

  • Dataplex Universal Catalog 中没有非公开切面和非公开切面类型(与 Data Catalog 中的非公开标记和非公开标记模板相对应)的概念。
  • Dataplex Universal Catalog 搜索不支持搜索政策标记;因此,谓词 policytagpolicytagid 在 Dataplex Universal Catalog 搜索中不起作用。
  • 将 Data Catalog 自定义条目组、自定义条目、标记模板和标记导入 Dataplex Universal Catalog 时,其原始权限不会随之转移。您必须先为复制的元数据明确配置 IAM 权限,然后才能使用该元数据。
  • 不支持使用 Terraform 管理切面和自定义条目。 您可以改为使用托管式连接流水线元数据导入 API 方法以程序化方式大规模管理自定义元数据。(Terraform 支持条目组、条目类型和切面类型;请参阅使用 Terraform 预配 Dataplex Universal Catalog 资源。)
  • 不支持将敏感数据保护检查结果直接发送到 Dataplex Universal Catalog 中的目录。不过,您可以将 Sensitive Data Protection 检查结果发送到 Data Catalog,然后将结果转换到 Dataplex Universal Catalog
  • 您无法使用 API 列出各个项目中的条目类型和方面类型。 您可以将列表请求的范围限定为仅限项目。
  • 不支持将数据湖、区域、资产和实体注册为 Dataplex Universal Catalog 条目。这意味着附加到数据湖、区域、资产和实体的 Data Catalog 元数据不会转移到 Dataplex Universal Catalog 中的目录。此外,使用 Dataplex Universal Catalog 搜索时,不支持搜索区域和实体,也不支持按数据湖和区域进行过滤。在 Dataplex Universal Catalog 中,您可以独立于目录使用数据湖和区域。
  • 不支持可确保完全召回的管理员搜索。不过,您可以将元数据导出到 Cloud Storage,然后从 BigQuery 中查询这些元数据。

如需比较 Dataplex Universal Catalog 和 Data Catalog 中支持的功能和资源,请参阅本文档中的 Dataplex Universal Catalog 与 Data Catalog 部分。

价格

Dataplex Universal Catalog 使用元数据存储 SKU 来收取元数据存储费用。如需了解详情,请参阅 Dataplex Universal Catalog 价格

以下功能可免费使用:

  • 在 Dataplex Universal Catalog 中创建和管理目录资源
  • 针对 Dataplex Universal Catalog 的搜索 API 调用
  • 在Google Cloud 控制台中的 Dataplex Universal Catalog 页面上执行的搜索查询

后续步骤