Dataplex Universal Catalog 的最佳实践

本文档提供了有关使用 Dataplex Universal Catalog 的指导和最佳实践。

为数据湖选择项目

选择用于托管数据湖的项目时,请考虑以下因素:

  • 该项目必须与数据湖中将要存储的数据属于同一 VPC Service Controls 边界

  • 数据湖服务账号需要拥有对 Cloud Storage 存储桶或 BigQuery 数据集的管理员权限。Dataplex Universal Catalog 会在 BigQuery 中为 Cloud Storage 中发现的表创建外部表。Dataplex Universal Catalog 还可以在 Dataproc Metastore 服务中提供 BigQuery 表元数据,以及在 Cloud Storage 存储桶中发现的表。Dataproc Metastore 位于数据湖项目中。

Cloud Storage 设置和限制

  • 区域:Dataplex Universal Catalog 支持部分Google Cloud 区域中的单区域和多区域存储桶。

  • 存储类别:支持所有存储类别(Standard、Nearline、Coldline、Archive)的 Cloud Storage 存储桶。访问或扫描 Nearline、Coldline 或 Archive 数据可能会产生额外的数据检索费用。

  • 存储桶 ACL:Dataplex Universal Catalog 仅支持具有统一访问权限控制的 Cloud Storage 存储桶。不支持精细访问权限控制。

  • 请求者付款:不支持启用了请求者付款功能的 Cloud Storage 存储桶。

安全性和权限指导

Dataplex Universal Catalog 要求将 Dataplex Universal Catalog 服务账号添加为托管式存储桶和数据集的管理服务账号。

借助 Dataplex Universal Catalog,分析师可以跨多个项目访问 Cloud Storage 存储桶和 BigQuery 数据集。如需启用此访问权限,Dataplex Universal Catalog 需要将具有管理控制权的 Dataplex Universal Catalog 服务账号添加到这些项目中。

对于发现,Dataplex Universal Catalog 会将 Dataproc Metastore 服务账号添加到 Cloud Storage 存储桶。如果您有自己的 Dataproc Metastore 集群,则可能希望让 Dataplex Universal Catalog 数据湖使用您的 Dataproc Metastore 服务,这是创建数据湖时的一个选项。

如果您选择添加具有对数据湖的精细访问权限的 Cloud Storage 存储桶,则 Dataplex Universal Catalog 会通过该数据湖提供对该存储桶的完整访问权限,因为 Dataplex Universal Catalog 权限会传播到该存储桶中的所有对象。如果您需要精细的访问权限,建议您将存储桶中的数据拆分到多个存储桶中。

后续步骤