請參考下列概念,瞭解 Dataproc Metastore 的運作方式,以及可搭配服務使用的不同功能。
Dataproc Metastore 版本
建立 Dataproc Metastore 服務時,您可以選擇使用 Dataproc Metastore 2 服務或 Dataproc Metastore 1 服務。
Dataproc Metastore 2
Dataproc Metastore 2 會使用調節係數,判斷服務在特定時間點使用多少資源。建立 Dataproc Metastore 2 後,您可以修改調整因子來調高或調低服務。
Dataproc Metastore 2 是新一代服務,除了提供 Dataproc Metastore 功能,還提供水平可擴充性。詳情請參閱「功能和優點」。
Dataproc Metastore 2 的定價方案與 Dataproc Metastore 不同。詳情請參閱「定價方案和資源調度設定」。
Dataproc Metastore 1
Dataproc Metastore 1 會使用服務層級來判斷服務在特定時間點使用的資源數量。服務層級會提供可預測的預先決定資源數量。
檢查 Dataproc Metastore 版本
您可以在Google Cloud 控制台中查看目前使用的 Dataproc Metastore 版本。
- Dataproc Metastore 2:設定表包含以下值:Enterprise 版 - 單一區域。
- Dataproc Metastore 1:設定表格包含下列其中一個值:Tier: DEVELOPER 或 Tier: ENTERPRISE。
常見的 Dataproc Metastore 術語
下列術語在 Dataproc Metastore 生態系統和說明文件中經常使用。
服務
- Apache Hive。Hive 是採用 Apache Hadoop 建構而成的熱門開放原始碼資料倉儲系統,Hive 提供類似 SQL 的查詢語言 HiveQL,可用於分析大型的結構化資料集。
- Apache Hive Metastore。Hive 中繼存放區會保存 Hive 資料表相關的中繼資料,例如資料表的結構定義和位置。
- Dataproc。Dataproc 是一項運作快速且簡單易用的全代管服務,可讓您以簡單並符合成本效益的方式執行 Apache Spark 和 Apache Hadoop 工作負載。 Google Cloud 建立 Dataproc Metastore 後,您可以透過 Dataproc 叢集連線至該服務。
- Dataproc 叢集:建立 Dataproc Metastore 服務後,您可以透過 Dataproc 叢集連線至該服務。您也可以將 Dataproc Metastore 與其他各種叢集搭配使用,例如自行管理的 Apache Hive、Apache Spark 或 Presto 叢集。
- Dataproc Metastore 服務。您在 Google Cloud中建立的元資料庫執行個體名稱。您可以在實作中使用一或多個不同的元資料庫服務。
- Private Service Connect。Private Service Connect 可讓您在虛擬私有雲網路中,設定與 Dataproc Metastore 中繼資料的私人連線。您可以將其用於網路連線,做為虛擬私有雲對等互連的替代方案。
- VPC Service Controls。您可以透過 VPC Service Controls 建立範圍,保護明確指定的服務資源和資料,進而降低資料從 Google Cloud 服務竊取的風險。
概念
- Tables。所有 Hive 應用程式都有用於儲存資料的受管理內部或未受管理外部資料表。
- Hive 倉儲目錄。儲存受管理資料表資料的預設位置。
- Artifacts 儲存空間。在您建立的每個元資料庫服務中,系統會自動在專案中建立 Cloud Storage 值區。這個值區可用來儲存服務構件,例如匯出的中繼資料和受管理的資料表資料。根據預設,構件值區會儲存 Dataproc Metastore 服務的預設倉儲目錄。
- Endpoints:Dataproc Metastore 服務會透過一或多個網路端點,讓用戶端存取已儲存的 Hive Metastore 中繼資料。Dataproc Metastore 會為這些端點提供 URI。
- 端點通訊協定。用於 Dataproc Metastore 和 Hive Metastore 用戶端之間通訊的 over-the-wire 網路通訊協定。Dataproc Metastore 支援 Apache Thrift 和 gRPC 端點。
- 中繼資料聯合。這項功能可讓您存取儲存在多個 Dataproc Metastore 執行個體中的中繼資料。
- 輔助版本。這項功能可讓您將多個 Hive 用戶端版本連結至相同的 Dataproc Metastore 服務。
Hive 中繼存放區概念
如要使用 Dataproc Metastore 服務,您必須瞭解基本 Hive 中繼存放區概念。詳情請參閱「Hive Metastore」。
網路需求
Dataproc Metastore 服務需要網路存取權才能正常運作。詳情請參閱「設定網路需求」。
專案設定
部署 Dataproc 叢集和 Dataproc Metastore 服務時,您可以使用多種專案設定。詳情請參閱跨專案部署作業。