Dataplex 通用目录的最佳实践

本文档提供了有关使用 Dataplex Universal Catalog 的指南和最佳实践。

为您的湖选择一个项目

选择用于托管数据湖的项目时,请考虑以下因素:

  • 项目必须与数据湖中将要存储的数据位于同一 VPC Service Controls 边界内。

  • 数据湖服务账号需要对 Cloud Storage 存储分区或 BigQuery 数据集拥有管理员权限。Dataplex Universal Catalog 会在 BigQuery 中为 Cloud Storage 中发现的表创建外部表。Dataplex Universal Catalog 还可在 Dataproc Metastore 服务中提供 BigQuery 表元数据,以及在 Cloud Storage 存储桶中发现的表。Dataproc Metastore 位于数据湖项目中。

Cloud Storage 设置和限制

  • 区域:Dataplex Universal Catalog 支持部分Google Cloud 区域中的单区域和多区域存储分区。

  • 存储类别:支持所有存储类别的 Cloud Storage 存储分区(Standard、Nearline、Coldline、Archive)。 访问或扫描 Nearline、Coldline 或 Archive 数据可能会产生额外的数据检索费用。

  • 存储分区 ACL:Dataplex Universal Catalog 仅支持具有统一访问权限控制的 Cloud Storage 存储分区。不支持精细访问权限控制。

  • 请求者付款:不支持启用请求者付款功能的 Cloud Storage 存储分区。

安全与权限指南

Dataplex Universal Catalog 要求将 Dataplex Universal Catalog 服务账号添加为受管理存储分区和数据集的管理服务账号。

借助 Dataplex Universal Catalog,分析师可以跨多个项目访问 Cloud Storage 存储分区和 BigQuery 数据集。为了实现此访问权限,Dataplex Universal Catalog 需要将具有管理控制权的 Dataplex Universal Catalog 服务账号添加到这些项目中。

对于探索,Dataplex Universal Catalog 会将 Dataproc Metastore 服务账号添加到 Cloud Storage 存储分区。如果您有自己的 Dataproc Metastore 集群,则可能希望让 Dataplex Universal Catalog 数据湖使用您的 Dataproc Metastore 服务,这是创建数据湖时的一个选项。

如果您选择将具有精细访问权限的 Cloud Storage 存储桶添加到数据湖,Dataplex Universal Catalog 将通过该数据湖提供对相应存储桶的完全访问权限,因为 Dataplex Universal Catalog 权限会传播到存储桶中的所有对象。如果您需要精细的访问权限,建议您将存储桶中的数据拆分到多个存储桶中。

后续步骤