Dataproc Metastore 總覽

Dataproc Metastore 是全代管 Apache Hive 中繼存放區 (HMS),可在 Google Cloud上執行。開放原始碼大數據生態系統中已建立的標準,用於管理技術中繼資料,例如關聯式資料庫中的結構定義、區隔和欄位統計資料。

Dataproc Metastore 可用性高、具備自動修復功能,且為無伺服器服務。您可以使用這項服務管理資料湖中繼資料,並在您使用的各種資料處理引擎和工具之間提供互通性。

Dataproc Metastore 的運作方式

您可以將 Dataproc Metastore 服務連結至 Dataproc 叢集,Dataproc 叢集包含依賴 HMS 來推動查詢規劃和執行作業的元件。

這項整合功能可讓您在工作之間保留資料表資訊,或將中繼資料提供給其他叢集和其他處理引擎。

舉例來說,實作中繼資料儲存庫可能有助於您指定檔案子集包含收益資料,而非手動追蹤檔案名稱。在這種情況下,您可以為這些檔案定義資料表,並將中繼資料儲存在 Dataproc Metastore 中。之後,您可以將資料表連結至 Dataproc 叢集,並使用 Hive、Spark SQL 或其他查詢服務查詢資料表中的資訊。

Dataproc Metastore 版本

建立 Dataproc Metastore 服務時,您可以選擇使用 Dataproc Metastore 2 服務Dataproc Metastore 1 服務

  • Dataproc Metastore 2 是新一代服務,除了提供 Dataproc Metastore 1 的功能,還提供水平可擴充性。詳情請參閱「功能和優點」。

  • Dataproc Metastore 2 的定價方案與 Dataproc Metastore 不同。詳情請參閱「定價方案和資源調度設定」。

常見用途

除非另有說明,否則本節所列的所有用途都支援 Dataproc Metastore 2 和 Dataproc Metastore 1。

  • 為資料指派意義。建立集中式中繼資料存放區,供許多暫時性 Dataproc 叢集共用。使用不同的開放原始碼軟體 (OSS) 引擎,例如 Apache HiveApache SparkPresto

  • 建立統一的資料檢視畫面。在Google Cloud 服務 (例如 Dataproc、Dataplex 通用目錄和 BigQuery) 之間提供互通性,或在Google Cloud上使用其他開放原始碼合作夥伴提供的服務。

特色與優點

除非另有說明,否則本節所列的所有功能皆由 Dataproc Metastore 2 和 Dataproc Metastore 1 支援。

  • OSS 相容性。連結至現有的資料處理引擎,例如 Apache Hive、Apache Spark 和 Presto。

  • 管理。在幾分鐘內建立或更新元資料儲存庫,並完成完整設定的監控和作業工作。

  • 整合。與其他 Google Cloud 產品整合,例如將 BigQuery 用作 Dataproc 叢集的中繼資料來源。

  • 內建安全防護機制。使用已建立的 Google Cloud 安全性通訊協定,例如 身分與存取權管理 (IAM)Kerberos 驗證

  • 簡單匯入:將儲存在外部 Hive Metastore 中繼儲存庫中的現有中繼資料匯入 Dataproc Metastore 服務。

  • 自動備份:設定自動中繼存放區備份功能,避免資料遺失。

  • 效能監控:設定效能層級,以便動態回應高密集的工作負載和尖峰,無需預先暖機或快取。

  • 高可用性 (HA)

    • Dataproc Metastore 2. 提供區域高可用性 (HA),無須任何特定設定或持續管理。這項功能會在您所選地區的多個可用區中,自動複製後端資料庫和 HMS 伺服器。除了區域高可用性之外,Dataproc Metastore 2 也支援區域高可用性和災難復原 (DR)。
    • Dataproc Metastore 1. 預設會提供區域高可用性 (HA),無須任何特定設定或持續管理。這項功能會在您選擇的區域內的多個可用區中,自動複製後端資料庫和 HMS 伺服器。

    如要進一步瞭解特定地區的注意事項,請參閱「地理位置與區域」一文。

  • 擴充性

    • Dataproc Metastore 2. 使用水平縮放係數,判斷服務在特定時間點需要使用多少資源。您可以手動控制縮放因數,或視需要將其設為自動縮放。
    • Dataproc Metastore 1. 設定服務時,請選擇開發人員級別或企業級別。這個層級會決定服務在特定時間點需要使用多少資源。
  • 支援:享有標準 Google Cloud 服務水準協議和支援管道的好處。

與 Google Cloud的整合

除非另有說明,否則本節所列的所有整合功能皆由 Dataproc Metastore 1 和 Dataproc Metastore 2 支援。

  • Dataproc。連線至 Dataproc 叢集,以便為 OSS 大數據工作負載提供中繼資料。
  • BigQuery。在 Dataproc 工作負載中查詢 BigQuery 資料集。
  • Dataplex 通用目錄查詢 Dataplex 通用目錄湖泊中發現的結構化和半結構化資料。
  • Data Catalog。將 Dataproc Metastore 與 Data Catalog 同步,以便搜尋及探索中繼資料。
  • 記錄和監控。將 Dataproc Metastore 與 Cloud Monitoring 和 Logging 產品整合。
  • 驗證和 IAM。依賴其他Google Cloud 產品使用的標準 OAuth 驗證機制,這類機制支援使用精細的身分與存取權管理角色,為個別資源啟用存取權控管。

後續步驟