Dataproc Metastore 是全代管 Apache Hive 中繼存放區 (HMS),可在 Google Cloud上執行。開放原始碼大數據生態系統中已建立的標準,用於管理技術中繼資料,例如關聯式資料庫中的結構定義、區隔和欄位統計資料。
Dataproc Metastore 可用性高、具備自動修復功能,且為無伺服器服務。您可以使用這項服務管理資料湖中繼資料,並在您使用的各種資料處理引擎和工具之間提供互通性。
Dataproc Metastore 的運作方式
您可以將 Dataproc Metastore 服務連結至 Dataproc 叢集,Dataproc 叢集包含依賴 HMS 來推動查詢規劃和執行作業的元件。
這項整合功能可讓您在工作之間保留資料表資訊,或將中繼資料提供給其他叢集和其他處理引擎。
舉例來說,實作中繼資料儲存庫可能有助於您指定檔案子集包含收益資料,而非手動追蹤檔案名稱。在這種情況下,您可以為這些檔案定義資料表,並將中繼資料儲存在 Dataproc Metastore 中。之後,您可以將資料表連結至 Dataproc 叢集,並使用 Hive、Spark SQL 或其他查詢服務查詢資料表中的資訊。
Dataproc Metastore 版本
建立 Dataproc Metastore 服務時,您可以選擇使用 Dataproc Metastore 2 服務或 Dataproc Metastore 1 服務。
Dataproc Metastore 2 是新一代服務,除了提供 Dataproc Metastore 1 的功能,還提供水平可擴充性。詳情請參閱「功能和優點」。
Dataproc Metastore 2 的定價方案與 Dataproc Metastore 不同。詳情請參閱「定價方案和資源調度設定」。
常見用途
除非另有說明,否則本節所列的所有用途都支援 Dataproc Metastore 2 和 Dataproc Metastore 1。
為資料指派意義。建立集中式中繼資料存放區,供許多暫時性 Dataproc 叢集共用。使用不同的開放原始碼軟體 (OSS) 引擎,例如 Apache Hive、Apache Spark 和 Presto。
建立統一的資料檢視畫面。在Google Cloud 服務 (例如 Dataproc、Dataplex 通用目錄和 BigQuery) 之間提供互通性,或在Google Cloud上使用其他開放原始碼合作夥伴提供的服務。
特色與優點
除非另有說明,否則本節所列的所有功能皆由 Dataproc Metastore 2 和 Dataproc Metastore 1 支援。
OSS 相容性。連結至現有的資料處理引擎,例如 Apache Hive、Apache Spark 和 Presto。
管理。在幾分鐘內建立或更新元資料儲存庫,並完成完整設定的監控和作業工作。
整合。與其他 Google Cloud 產品整合,例如將 BigQuery 用作 Dataproc 叢集的中繼資料來源。
內建安全防護機制。使用已建立的 Google Cloud 安全性通訊協定,例如 身分與存取權管理 (IAM) 和 Kerberos 驗證。
簡單匯入:將儲存在外部 Hive Metastore 中繼儲存庫中的現有中繼資料匯入 Dataproc Metastore 服務。
自動備份:設定自動中繼存放區備份功能,避免資料遺失。
效能監控:設定效能層級,以便動態回應高密集的工作負載和尖峰,無需預先暖機或快取。
高可用性 (HA)。
- Dataproc Metastore 2. 提供區域高可用性 (HA),無須任何特定設定或持續管理。這項功能會在您所選地區的多個可用區中,自動複製後端資料庫和 HMS 伺服器。除了區域高可用性之外,Dataproc Metastore 2 也支援區域高可用性和災難復原 (DR)。
- Dataproc Metastore 1. 預設會提供區域高可用性 (HA),無須任何特定設定或持續管理。這項功能會在您選擇的區域內的多個可用區中,自動複製後端資料庫和 HMS 伺服器。
如要進一步瞭解特定地區的注意事項,請參閱「地理位置與區域」一文。
擴充性。
- Dataproc Metastore 2. 使用水平縮放係數,判斷服務在特定時間點需要使用多少資源。您可以手動控制縮放因數,或視需要將其設為自動縮放。
- Dataproc Metastore 1. 設定服務時,請選擇開發人員級別或企業級別。這個層級會決定服務在特定時間點需要使用多少資源。
支援:享有標準 Google Cloud 服務水準協議和支援管道的好處。
與 Google Cloud的整合
除非另有說明,否則本節所列的所有整合功能皆由 Dataproc Metastore 1 和 Dataproc Metastore 2 支援。
- Dataproc。連線至 Dataproc 叢集,以便為 OSS 大數據工作負載提供中繼資料。
- BigQuery。在 Dataproc 工作負載中查詢 BigQuery 資料集。
- Dataplex 通用目錄查詢 Dataplex 通用目錄湖泊中發現的結構化和半結構化資料。
- Data Catalog。將 Dataproc Metastore 與 Data Catalog 同步,以便搜尋及探索中繼資料。
- 記錄和監控。將 Dataproc Metastore 與 Cloud Monitoring 和 Logging 產品整合。
- 驗證和 IAM。依賴其他Google Cloud 產品使用的標準 OAuth 驗證機制,這類機制支援使用精細的身分與存取權管理角色,為個別資源啟用存取權控管。
後續步驟
- 請參閱「部署 Dataproc Metastore 服務」這份快速入門指南,瞭解如何開始使用。
- 瞭解 Dataproc Metastore 定價。
- 瞭解 Dataproc Metastore 的配額和限制。
- 閱讀 Dataproc Metastore 版本資訊。
- 使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc Metastore API 存取 Dataproc Metastore。