Dataplex 通用目錄的最佳做法

本文提供使用 Dataplex Universal Catalog 的指南和最佳做法。

為資料湖選擇專案

選取要代管資料湖的專案時,請考量下列因素:

  • 專案必須與預計存放在資料湖中的資料,屬於同一個 VPC Service Controls 範圍

  • 湖泊服務帳戶必須具備 Cloud Storage 儲存空間或 BigQuery 資料集的管理員權限。Dataplex Universal Catalog 會在 BigQuery 中建立外部資料表,用於 Cloud Storage 中探索到的資料表。Dataplex Universal Catalog 也會將 BigQuery 資料表中繼資料,以及在 Cloud Storage bucket 中探索到的資料表,提供給 Dataproc Metastore 服務。Dataproc Metastore 位於資料湖專案中。

Cloud Storage 設定和限制

  • 區域:Dataplex Universal Catalog 支援部分Google Cloud 區域的單一區域和多區域 bucket。

  • 儲存空間類別:支援所有儲存空間類別的 Cloud Storage 儲存空間 (Standard、Nearline、Coldline、Archive)。存取或掃描 Nearline、Coldline 或 Archive 資料時,可能會產生額外的資料擷取費用。

  • Bucket ACL:Dataplex Universal Catalog 僅支援具有統一存取控制項的 Cloud Storage bucket。不支援精細的存取權控管機制。

  • 要求者付費:系統不支援啟用「要求者付費」功能的 Cloud Storage bucket。

安全性和權限指南

Dataplex Universal Catalog 需要在受管理的水桶和資料集上,將 Dataplex Universal Catalog 服務帳戶 新增為管理服務帳戶。

Dataplex Universal Catalog 可讓分析人員存取多個專案中的 Cloud Storage bucket 和 BigQuery 資料集。如要啟用這項存取權,Dataplex Universal Catalog 必須將具有管理控制項的 Dataplex Universal Catalog 服務帳戶新增至這些專案。

如果是探索功能,Dataplex Universal Catalog 會將 Dataproc Metastore 服務帳戶新增至 Cloud Storage bucket。如果您有自己的 Dataproc Metastore 叢集,可以讓 Dataplex Universal Catalog lake 使用您的 Dataproc Metastore 服務,這是建立 lake 時的選項。

如果選擇將具有精細存取權的 Cloud Storage bucket 新增至 lake,Dataplex Universal Catalog 會透過 lake 提供該 bucket 的完整存取權,因為 Dataplex Universal Catalog 權限會傳播至 bucket 中的所有物件。如需精細的存取權,建議您將 bucket 中的資料分割成多個 bucket。

後續步驟