本文档介绍了如何将 Dataproc Metastore 元数据与 Data Catalog 同步。
将这两项服务同步后,您就可以使用 Data Catalog 管理 Dataproc Metastore 元数据。例如,借助 Data Catalog,您可以标记和搜索特定的 Dataproc Metastore 资源,例如数据库和表。
什么是 Data Catalog
Data Catalog 是一项可伸缩的全代管式元数据管理服务。它可让您集中查看技术元数据和业务元数据,还为这些元数据提供了标记机制。
如需了解详情,请参阅以下 Data Catalog 特性指南:
准备工作
所需的角色
如需获得将 Dataproc Metastore 元数据与 Data Catalog 同步所需的权限,请让管理员根据最小权限原则向您授予项目的 View synced Dataproc Metastore entries in Data Catalog (roles/metastore.metadataViewer
) IAM 角色。
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
此预定义角色包含将 Dataproc Metastore 元数据与 Data Catalog 同步所需的权限。如需查看所需的确切权限,请展开所需权限部分:
所需权限
如需将 Dataproc Metastore 元数据与 Data Catalog 同步,您需要具备以下权限:
-
如需获取 Dataproc Metastore 数据库,请执行以下操作:
metastore.databases.get
-
如需列出 Dataproc Metastore 数据库,请执行以下操作:
metastore.databases.list
-
如需获取 Dataproc Metastore 表,请执行以下操作:
metastore.tables.get
-
如需列出 Dataproc Metastore 表,请执行以下操作:
metastore.tables.list
服务之间的权限运作方式
Data Catalog 遵循 Dataproc Metastore 级别权限。对于从 Dataproc Metastore 同步到 Data Catalog 的元数据,在 Dataproc Metastore 中指定的 IAM 权限也适用于 Data Catalog 中的元数据。
Data Catalog 会在访问时检查每个 Metastore 数据库和表的权限,使得只有拥有 Dataproc Metastore 服务访问权限的用户才能看到作为 Data Catalog 中的条目的已同步服务资源。
Data Catalog 同步与 Dataproc Metastore 的运作方式
使用 Google Cloud 控制台创建或更新 Dataproc Metastore 服务时,您可以启用将 Dataproc Metastore 服务同步到 Data Catalog。您可以通过同样的方式停用同步。
启用 Data Catalog 同步后,数据库和表元数据会自动从 Dataproc Metastore 同步到 Data Catalog。
Data Catalog 会同步以下元数据:
- Instances.
- 数据库,包括名称和说明。
- 表,包括名称、说明和架构(包含说明的列)。
下表显示了 Dataproc Metastore 和 Data Catalog 之间的资源映射:
Dataproc Metastore 资源 | Data Catalog 资源 |
---|---|
实例 | 条目组 条目 |
数据库 | 条目 |
表 | 条目 |
列 | 架构 |
注意事项
Dataproc Metastore 元数据可能需要长达 6 小时才能与 Data Catalog 完全同步。初始同步完成后,系统会按需同步增量更改(例如表或数据库更新)。如果按需同步失败,系统会将该同步包含在每 6 小时一次的批量重新运行中。
如果您怀疑同步存在问题,请使用过滤条件
textPayload=~".*Publish.*"
检查 Dataproc Metastore Cloud Logging 中的元数据发布日志。如需详细了解如何访问日志,请参阅访问 Logging 中的作业日志。如果停用 Data Catalog 同步,元数据将停止从 Dataproc Metastore 同步到 Data Catalog。不过,已同步的元数据仍将保留在 Data Catalog 中。
如果您删除 Dataproc Metastore 实例,相应的实例、数据库和表条目也会从 Data Catalog 中移除。
存储在 Data Catalog 中的 Dataproc Metastore 元数据遵循标准 Google Cloud 保留期限。
为 Dataproc Metastore 启用 Data Catalog 同步时没有额外的费用。
创建一个启用了 Data Catalog 同步的服务
Data Catalog 同步默认处于停用状态。
如需为新服务启用 Data Catalog 同步,请按照以下说明操作。
控制台
在 Google Cloud 控制台中,打开 Dataproc Metastore 页面:
在 Dataproc Metastore 页面顶部,点击创建。
此时会打开创建服务页面。
选择要使用的 Dataproc Metastore 版本。
在元数据集成下,点击 Data Catalog 同步。
对于其余服务配置选项,请使用提供的默认值。或者根据需要配置服务。
点击提交。
为现有服务启用或停用 Data Catalog 同步
如需为现有服务启用或停用 Data Catalog 同步,请按照以下说明操作。
控制台
在 Google Cloud 控制台中,打开 Dataproc Metastore 页面:
在 Dataproc Metastore 页面上,点击要更新的服务。
该服务的服务详细信息页面会打开。
在配置标签页下,点击修改。
系统随即会打开修改服务页面。
在元数据集成下,开启或关闭 Data Catalog 同步。
点击提交。
使用 Data Catalog 进行搜索
您可以使用 Data Catalog 来搜索已同步的 Dataproc Metastore 元数据。
虽然 Dataproc Metastore 没有任何自定义搜索选项,但您可以通过多种方式搜索不同的 Dataproc Metastore 资源,包括:
- Dataproc Metastore 实例
- 按显示名
- 标准 Data Catalog 功能,例如使用标记。
- 数据库
- 按显示名
- 按说明
- 按 Dataproc Metastore 实例
- 标准 Data Catalog 功能,例如使用标记。
- 表格
- 按显示名
- 按说明
- 按列名称
- 按列说明
- 按数据库
- 按 Dataproc Metastore 实例
- 标准 Data Catalog 功能,例如使用标记。