將 Dataproc Metastore 同步至 Data Catalog

本文說明如何將 Dataproc Metastore 中繼資料與 Data Catalog 同步。

將這兩項服務同步處理後,您可以使用 Data Catalog 管理 Dataproc Metastore 中繼資料。舉例來說,您可以使用 Data Catalog 標記及搜尋特定 Dataproc Metastore 資源,例如資料庫和資料表。

什麼是 Data Catalog

Data Catalog 是可擴充的全代管中繼資料管理服務。這項服務提供技術和業務中繼資料的統一檢視畫面和標記機制。

詳情請參閱下列 Data Catalog 功能指南:

事前準備

必要的角色

如要取得將 Dataproc Metastore 中繼資料與 Data Catalog 同步處理所需的權限,請要求管理員根據最低權限原則,授予您專案的「在 Data Catalog 中查看已同步處理的 Dataproc Metastore 項目」 (roles/metastore.metadataViewer) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

這個預先定義的角色具備將 Dataproc Metastore 中繼資料與 Data Catalog 同步處理所需的權限。如要查看確切的必要權限,請展開「必要權限」部分:

所需權限

如要將 Dataproc Metastore 中繼資料與 Data Catalog 同步,必須具備下列權限:

  • 如要取得 Dataproc Metastore 資料庫: metastore.databases.get
  • 如要列出 Dataproc Metastore 資料庫,請執行下列操作: metastore.databases.list
  • 如要取得 Dataproc Metastore 資料表: metastore.tables.get
  • 如要列出 Dataproc Metastore 資料表: metastore.tables.list

您或許還可透過自訂角色或其他預先定義的角色取得這些權限。

如要進一步瞭解 Dataproc Metastore 的特定角色和權限,請參閱「使用身分與存取權管理功能控管存取權」一文。

服務之間的權限運作方式

Data Catalog 會遵守 Dataproc Metastore 層級的權限。如果是從 Dataproc Metastore 同步至 Data Catalog 的中繼資料,Dataproc Metastore 中指定的身分與存取權管理權限也會套用至 Data Catalog 中的中繼資料。

Data Catalog 會在存取時檢查每個 Metastore 資料庫和資料表的權限,因此只有具備 Dataproc Metastore 服務存取權的使用者,才能在 Data Catalog 中查看同步的服務資源項目。

Data Catalog 同步處理功能與 Dataproc Metastore 的運作方式

使用 Google Cloud 控制台建立或更新 Dataproc Metastore 服務時,可以啟用 Dataproc Metastore 至 Data Catalog 的同步功能。停用同步功能的方式也相同。

啟用 Data Catalog 同步處理後,資料庫和資料表中繼資料會自動從 Dataproc Metastore 同步至 Data Catalog。

Data Catalog 會同步處理下列中繼資料:

  • Instances.
  • 資料庫,包括名稱和說明。
  • 資料表,包括名稱、說明和結構定義 (附有說明的資料欄)。

下表顯示 Dataproc Metastore 和 Data Catalog 之間的資源對應:

Dataproc Metastore 資源 Data Catalog 資源
執行個體 項目群組
項目
資料庫 項目
資料表 項目
結構定義

注意事項

  • Dataproc Metastore 中繼資料最多需要 6 小時,才能完全同步至 Data Catalog。完成初始同步後,系統會視需要同步處理遞增變更 (例如表格或資料庫更新)。如果隨選同步作業失敗,系統會將該作業納入每 6 小時重新執行的批次作業。

  • 如果懷疑同步作業有問題,請在 Dataproc Metastore Cloud Logging 中,使用 textPayload=~".*Publish.*" 篩選器檢查中繼資料發布記錄。如要進一步瞭解如何存取記錄,請參閱「在 Logging 中存取工作記錄」。

  • 停用 Data Catalog 同步處理後,中繼資料就不會再從 Dataproc Metastore 同步至 Data Catalog。但已同步處理的中繼資料仍會保留在 Data Catalog 中。

  • 如果刪除 Dataproc Metastore 執行個體,系統也會從 Data Catalog 中移除對應的執行個體、資料庫和資料表項目。

  • 儲存在 Data Catalog 中的 Dataproc Metastore 中繼資料會遵守標準 Google Cloud 保留期限。

  • 為 Dataproc Metastore 啟用 Data Catalog 同步功能不會產生額外費用。

建立已啟用 Data Catalog 同步處理的服務

Data Catalog 同步功能預設為停用。

如要為新服務啟用 Data Catalog 同步功能,請按照下列操作說明進行。

控制台

  1. 在 Google Cloud 控制台中,開啟 Dataproc Metastore 頁面:

    前往 Dataproc Metastore

  2. 在「Dataproc Metastore」頁面頂端,按一下「建立」

    「建立服務」頁面隨即開啟。

  3. 選取要使用的 Dataproc Metastore 版本。

  4. 在「中繼資料整合」下方,按一下「Data Catalog 同步處理」

  5. 其餘服務設定選項請使用系統提供的預設值。 或視需要設定服務

  6. 按一下「提交」

為現有服務啟用或停用 Data Catalog 同步功能

如要為現有服務啟用或停用 Data Catalog 同步功能,請按照下列指示操作。

控制台

  1. 在 Google Cloud 控制台中,開啟 Dataproc Metastore 頁面:

    前往 Dataproc Metastore

  2. 在「Dataproc Metastore」頁面中,按一下要更新的服務。

    該服務的「服務詳細資料」頁面隨即開啟。

  3. 在「Configuration」分頁下方,按一下「Edit」

    「編輯服務」頁面隨即開啟。

  4. 在「中繼資料整合」下方,開啟或關閉「Data Catalog 同步」

  5. 按一下「提交」

使用 Data Catalog 搜尋

您可以使用 Data Catalog 搜尋已同步的 Dataproc Metastore 中繼資料。

雖然 Dataproc Metastore 沒有自訂搜尋選項,但您可以使用多種方式搜尋不同的 Dataproc Metastore 資源,包括:

  • Dataproc Metastore 執行個體
    • 依顯示名稱
    • 標準 Data Catalog 函式,例如使用標記。
  • 資料庫
    • 依顯示名稱
    • 依說明
    • 依 Dataproc Metastore 執行個體
    • 標準 Data Catalog 函式,例如使用標記。
  • Table
    • 依顯示名稱
    • 依說明
    • 依資料欄名稱
    • 依資料欄說明
    • (按照資料庫劃分)
    • 依 Dataproc Metastore 執行個體
    • 標準 Data Catalog 函式,例如使用標記。

後續步驟