Dataproc 元件

Dataproc 叢集提供下列類型的元件:

  • 已安裝的元件:在映像檔中安裝的元件,並在建立叢集時啟用。

  • 選用元件:您在建立叢集時選取的元件,可在叢集中安裝及使用。Dataproc 會根據叢集映像檔版本安裝及啟用選用元件,如下所示:

    • 2.2 以下的映像檔版本:系統會自動安裝選用元件。叢集建立時,系統會啟用所選選用元件,並停用未選取的選用元件。

    • 2.3 及後續映像檔版本:選用元件會在建立叢集時安裝。詳情請參閱 Dataproc 2.3.x 版本資訊

  • 初始化動作元件:在建立叢集時指定的初始化動作中,在叢集上安裝的元件。

在叢集上執行初始化動作之前,系統會先在叢集上安裝選用元件。

Dataproc 映像檔版本頁面會列出最新 Dataproc 映像檔版本中提供的元件和元件類型。

選用元件相較於用於安裝元件的初始化動作,具有下列優點:

  • 選用元件經過測試,確認與特定 Dataproc 版本相容。
  • 選用元件可透過叢集建立參數啟用;初始化動作則需要指令碼。

可用的選用元件

選用元件 Google Cloud CLI 指令和 API 請求中的元件名稱
映像檔版本 發佈階段
Delta Lake DELTA 2.2.46 以上版本 GA
Docker DOCKER 1.5 以上版本 GA
Flink FLINK 1.5 以上版本 GA
HBase HBASE 1.5 以上版本
(不適用於 2.1 以上版本)
已淘汰
Hive WebHCat HIVE_WEBHCAT 1.3 含以上 GA
Hudi HUDI 1.5 以上版本 GA
Iceberg ICEBERG 2.2 以上版本 GA
Jupyter 筆記本 JUPYTER 1.3 含以上 GA
Pig PIG 1.5* 以上版本 GA
Presto PRESTO 1.3 以上版本
(不適用於 2.1 以上版本)
GA
Ranger RANGER 1.3 含以上 GA
Solr SOLR 1.3 含以上 GA
Trino TRINO 2.1 以上版本 GA
Zeppelin Notebook ZEPPELIN 1.3 含以上 GA
Zookeeper ZOOKEEPER 1.0 以上版本 GA

注意:

  • 在 2.3 以上版本的映像檔中,Apache Pig 是選用元件。2.2 以下版本已預先安裝此工具。

新增選用元件

控制台

  1. 在 Google Cloud 控制台中,前往 Dataproc 的「Create a cluster」頁面。

    前往「建立叢集」

    選取「設定叢集」面板。

  2. 在「元件」部分的「選用元件」下方,選取一或多個要安裝在叢集上的元件。

Google Cloud CLI

如要建立 Dataproc 叢集,並在叢集中安裝一或多個選用元件,請使用 gcloud beta dataproc clusters create cluster-name 指令搭配 --optional-components 標記。

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

您可以透過 Dataproc API,使用 SoftwareConfig.Component 做為 clusters.create 要求的一部分,指定選用元件。