Dataplex Universal Catalog 提供了一个用于存储、管理和访问元数据的中央平台。本文档介绍了 Dataplex Universal Catalog 的元数据管理功能。
Dataplex Universal Catalog 提供Google Cloud 和本地资源的统一清单。Dataplex Universal Catalog 会自动检索并存储 Google Cloud 资源的元数据。您还可以将第三方资源的自有元数据导入 Dataplex Universal Catalog。
您可以使用其他业务和技术元数据来丰富商品目录,这些元数据可捕获有关资源的上下文和知识。您还可以搜索和发现组织中的数据,并对数据资产启用数据治理。
您可以将默认目录体验设置为 Dataplex Universal Catalog。 如果您使用的是 Data Catalog,请将独立 Data Catalog 内容和用法转换到 Dataplex Universal Catalog。如需了解详情,请参阅从 Data Catalog 转换到 Dataplex Universal Catalog。
使用场景
您可以使用 Dataplex Universal Catalog 执行以下操作:
发现和了解数据。Dataplex Universal Catalog 可让您了解整个组织的数据资源。借助该功能,您可以找到满足数据消耗需求的资源。它为数据资源提供背景信息,帮助您了解数据资源是否适合数据消费者的需求。
启用数据治理和数据管理。Dataplex Universal Catalog 提供元数据,可为您的数据治理和数据管理功能提供信息和支持。
维护一个可扩展且全面的元数据存储库。 Dataplex Universal Catalog 会存储并提供对从 Google Cloud 资源自动收集的元数据的访问权限。您可以集成来自非Google Cloud 系统的自有元数据。您可以使用其他业务和技术元数据注解来丰富所有元数据。
Dataplex Universal Catalog 中的元数据管理功能如何运作
Dataplex Universal Catalog 中的元数据管理功能基于以下概念:
条目:条目表示数据资产。大多数元数据都由条目中的方面来描述。这类似于 Data Catalog 中的条目。如需了解详情,请参阅条目。
方面:方面是指条目内的一组相关元数据字段。 方面可以解释为条目的组成要素,也可以解释为条目的附加元数据。这与 Data Catalog 中的标记类似,但切面存储在条目中,而不是作为独立资源。如需了解详情,请参阅切面。
切面类型:切面类型是可重复使用的切面模板。每个方面都是相应方面类型的实例。这类似于 Data Catalog 中的标记模板。如需了解详情,请参阅方面类型。
条目组:条目组是条目的容器,可作为这些条目的管理单元。例如,使用条目组为条目组中的条目配置 Identity and Access Management 访问权限控制、项目归因或位置信息。这类似于 Data Catalog 中的条目组。如需了解详情,请参阅条目组。
条目类型:条目类型是用于创建条目的模板。它确立了基本元数据元素,并以列表的形式列出了此类条目的必需切面。如需了解详情,请参阅条目类型。
图 1:条目和条目组 图 2. 切面类型和条目类型
以下是 Dataplex Universal Catalog 中元数据管理功能的一些使用情形:
- 作为数据分析师或业务分析师,您可以搜索组织中的条目,并探索与这些条目相关联的元数据。如需了解详情,请参阅搜索数据资产。
- 作为数据所有者或数据治理员,您可以通过使用切面为条目添加注释来捕获其他技术和业务元数据。如需了解详情,请参阅管理切面并丰富元数据。如需了解如何管理业务术语,请参阅管理术语表。
- 作为数据所有者或数据治理员,您可以通过定义注解(使用方面类型)、业务术语表(使用类别和业务术语)和自定义条目(使用条目类型)的标准,使元数据保持一致。如需了解详情,请参阅管理切面并丰富元数据和管理业务术语表。
- 作为数据工程师,您可以拥有统一的资源清单,其中包括 Google Cloud 资源和第三方系统中的资源。Google Cloud 资源由 Dataplex Universal Catalog 自动收集,而非Google Cloud 资源则由您收集。如需了解详情,请参阅管理条目和注入自定义来源。
对于现有 Data Catalog 用户
如果您已在使用 Data Catalog,请注意以下事项:
- 您在 Data Catalog 中创建的自定义条目、概览上下文、术语库和条目组可在 Dataplex Universal Catalog 中使用。
- 作为管理员,您可以选择让 Data Catalog 标记模板和标记的内容同时在 Dataplex Universal Catalog 中提供。如需了解详情,请参阅从 Data Catalog 转换到 Dataplex Universal Catalog。
- 在 Dataplex Universal Catalog 中搜索数据资产时,系统会同时搜索直接在 Dataplex Universal Catalog 中创建的元数据,以及从 Data Catalog 引入到 Dataplex Universal Catalog 中的元数据。
- 在 Data Catalog 中搜索数据资产时,系统只会纳入在 Data Catalog 中创建的元数据。
- Data Catalog 中超过 1,024 个字符的条目组说明在 Dataplex Universal Catalog 中会被截断为 1,024 个字符。
- 作为管理员,如需在 Dataplex Universal Catalog 中提供您在 Data Catalog 中创建的术语库以及业务术语与列之间的关联链接,请按照转换流程操作。
如需详细了解如何将独立 Data Catalog 内容和使用情况迁移到 Dataplex Universal Catalog,请参阅从 Data Catalog 迁移到 Dataplex Universal Catalog。
Dataplex Universal Catalog 与 Data Catalog 的对比
Dataplex Universal Catalog 提供集成功能来管理元数据。元数据存储和 API 方法已集成到 Dataplex API 中。
Dataplex Universal Catalog 中的主要元数据管理功能包括:
更强大的元模型
- 输入条目。您可以为自定义条目定义必需的元数据内容,从而强制执行最低元数据标准
- 用于自定义条目的用户可配置元模型,有助于使自定义提取更可靠,并提高自定义元数据的一致性和全面性。
- 支持更多种类和更复杂的元数据,包括支持列表、映射和数组等嵌套结构。
提高了可伸缩性,包括能够通过单个原子 CRUD 操作与条目关联的所有元数据进行交互,以及能够在搜索或列表响应中提取关联的多个元数据注释。
下表比较了 Dataplex Universal Catalog 和 Data Catalog 的元数据管理功能:
功能 | Dataplex Universal Catalog | Data Catalog |
---|---|---|
支持的 Google Cloud 来源 | 本文档的支持的 Google Cloud 来源部分中所述的所有来源。 | 条目和条目组中描述的所有来源。 |
自定义来源提取 | 以受控结构(由条目类型定义)将数据汲取到自定义条目中。 Data Catalog 自定义条目和条目组在 Dataplex Universal Catalog 中以 | 提取到通用自定义条目中。 |
元数据丰富化 | 条目的元数据上下文通过业务术语库、方面和方面类型来捕获。 | 条目的元数据上下文通过业务术语表、标记和标记模板来捕获。 |
搜索 | 搜索范围包括以下内容:
搜索结果仅包含与执行搜索的项目属于同一组织和同一 VPC-SC 边界的资源。使用 Google Cloud 控制台时,这是在控制台中选择的项目。 请注意,如需搜索条目,您需要对用于搜索的项目至少拥有以下一个 IAM 角色:Dataplex Catalog Admin、Dataplex Catalog Editor 或 Dataplex Catalog Viewer。搜索结果的权限检查独立于所选项目。 |
搜索范围包括以下内容:
|
数据沿袭 |
数据沿袭使用 Dataplex API 检索资产节点的条目详细信息。 Google Cloud 控制台会显示附加的方面。 |
数据沿袭通过使用 Data Catalog API 检索资产节点的条目详细信息。 |
业务术语表 |
借助业务术语表,您可以为业务术语构建分类,并将这些术语与数据资产和列相关联。您可以使用搜索功能来发现与某个术语相关联的资源。 |
借助业务术语库,您可以为业务术语构建分类,并将它们与列相关联。您可以使用搜索功能来发现与某个术语相关联的资源。 |
下表介绍了 Dataplex Universal Catalog 中的资源与 Data Catalog 资源之间的对应关系:
Dataplex Universal Catalog 资源 | Data Catalog 资源 | 说明 |
---|---|---|
切面类型 (global ) |
公开标记模板 | 标记模板属于区域级资源。不过,您可以使用它们区域创建标记。标记模板对应于 Dataplex Universal Catalog 中的 global 切面类型。 |
可选方面 | 公开标记 | Data Catalog 中的公开标记对应于 Dataplex Universal Catalog 中的可选切面。 |
条目组 | 条目组 | 对于 Google Cloud 来源,系统条目组(例如 @bigquery )是在 Dataplex Universal Catalog 中按项目建立的。 |
自定义条目所需的切面 | 自定义条目 | Data Catalog 和 Dataplex Universal Catalog 在自定义条目方面有相似的概念。 标准条目属性在 Dataplex Universal Catalog 中建模为必需切面。 |
系统条目所需的切面 | 系统 (Google Cloud) 条目 | 描述内置实体(例如 BigQuery 表的 Schema )的元数据会捕获在系统定义的方面类型的必需方面中。 |
业务术语表 | 业务术语表 | 使用术语表构建业务术语分类,从而在整个企业内标准化业务情境。 |
如需详细了解 Data Catalog 中提供但在 Dataplex Universal Catalog 中不受支持的功能,请参阅本文档中的Dataplex Universal Catalog 不支持的元数据管理功能部分。
支持的来源
- 自动发现 Cloud Storage 数据
- 以下 Google Cloud 来源的元数据会自动注入到 Dataplex Universal Catalog 中:
- BigQuery Sharing(以前称为 Analytics Hub)交换和产品详情
- BigQuery 数据集、表、模型、日常安排、连接和关联的数据集
- Bigtable 实例、集群和表(包括列族详细信息)
- Dataform 代码库和代码资产
- Cloud SQL 实例、数据库、架构、表、视图 - 请参阅启用 Cloud SQL 集成
- Dataproc Metastore 服务、数据库和表
- Pub/Sub 主题
- Spanner 实例、数据库、表和视图
- Vertex AI 模型、数据集、特征组、特征视图和在线存储区实例
如需将元数据从第三方来源导入 Dataplex Universal Catalog,您可以使用托管式连接流水线。
项目和位置限制
Dataplex Universal Catalog 中的目录资源位于各种项目和位置中。存在以下限制:
位置:
- 条目的位置必须与条目类型的位置一致,或者条目类型必须为
global
。 - 添加到条目的切面必须基于与条目存储在同一位置的切面类型,或者切面类型必须为
global
。 - 条目类型必须由存储在与条目类型相同位置的切面类型组成。
- 条目的位置必须与条目类型的位置一致,或者条目类型必须为
项目:
- 如果条目类型引用了自定义切面类型,则这些切面类型必须与条目类型位于同一位置和项目中。
Dataplex Universal Catalog 不支持的元数据管理功能
Data Catalog 中提供的以下功能在 Dataplex Universal Catalog 中不受支持:
- Dataplex Universal Catalog 中没有非公开切面和非公开切面类型(与 Data Catalog 中的非公开标记和非公开标记模板相对应)的概念。
- Dataplex Universal Catalog 搜索不支持搜索政策标记;因此,谓词
policytag
和policytagid
在 Dataplex Universal Catalog 搜索中不起作用。 - 将 Data Catalog 自定义条目组、自定义条目、标记模板和标记导入 Dataplex Universal Catalog 时,其原始权限不会随之转移。您必须先为复制的元数据明确配置 IAM 权限,然后才能使用该元数据。
- 不支持使用 Terraform 管理切面和自定义条目。 您可以改为使用托管式连接流水线或元数据导入 API 方法以程序化方式大规模管理自定义元数据。(Terraform 支持条目组、条目类型和切面类型;请参阅使用 Terraform 预配 Dataplex Universal Catalog 资源。)
- 不支持将敏感数据保护检查结果直接发送到 Dataplex Universal Catalog 中的目录。不过,您可以将 Sensitive Data Protection 检查结果发送到 Data Catalog,然后将结果转换到 Dataplex Universal Catalog。
- 您无法使用 API 列出各个项目中的条目类型和方面类型。 您可以将列表请求的范围限定为仅限项目。
- 不支持将数据湖、区域、资产和实体注册为 Dataplex Universal Catalog 条目。这意味着附加到数据湖、区域、资产和实体的 Data Catalog 元数据不会转移到 Dataplex Universal Catalog 中的目录。此外,使用 Dataplex Universal Catalog 搜索时,不支持搜索区域和实体,也不支持按数据湖和区域进行过滤。在 Dataplex Universal Catalog 中,您可以独立于目录使用数据湖和区域。
- 不支持可确保完全召回的管理员搜索。不过,您可以将元数据导出到 Cloud Storage,然后从 BigQuery 中查询这些元数据。
如需比较 Dataplex Universal Catalog 和 Data Catalog 中支持的功能和资源,请参阅本文档中的 Dataplex Universal Catalog 与 Data Catalog 部分。
价格
Dataplex Universal Catalog 使用元数据存储 SKU 来收取元数据存储费用。如需了解详情,请参阅 Dataplex Universal Catalog 价格。
以下功能可免费使用:
- 在 Dataplex Universal Catalog 中创建和管理目录资源
- 针对 Dataplex Universal Catalog 的搜索 API 调用
- 在Google Cloud 控制台中的 Dataplex Universal Catalog 页面上执行的搜索查询
后续步骤
- 了解如何在 Dataplex Universal Catalog 中搜索资源。
- 了解如何管理资产和丰富元数据。
- 了解如何管理条目和注入自定义来源。
- 详细了解如何从 Data Catalog 转换到 Dataplex Universal Catalog。
- 详细了解如何将术语库迁移到 Dataplex Universal Catalog。