Dataproc 元件

Dataproc 叢集包含下列類型的元件:

  • 已安裝的元件:安裝在映像檔中,並在建立叢集時啟用的元件。

  • 選用元件:您在建立叢集時選取要安裝及使用的元件。Dataproc 會根據叢集映像檔版本安裝及啟用選用元件,如下所示:

    • 2.2 和更早的映像檔版本:系統會自動安裝選用元件。系統會在建立叢集時啟用所選選用元件,並解除安裝未選取的選用元件。

    • 2.3 以上版本的映像檔:建立叢集時,系統會安裝所有選用元件,但 Jupyter、Iceberg 和 Delta Lake 選用元件除外,因為這些元件已預先安裝在 2.3 以上版本的映像檔中。如果叢集建立時未啟用預先安裝的選用元件,系統會從 2.3 以上版本的映像檔叢集移除這些元件。詳情請參閱「Dataproc 2.3.x 發布版本」。

  • 初始化動作元件:在叢集上安裝的元件,是您建立叢集時指定的初始化動作的一部分。

選用元件會先安裝在叢集上,然後才在叢集上執行初始化動作

Dataproc 映像檔版本頁面會列出最新 Dataproc 映像檔版本中提供的元件和元件類型。

相較於用來安裝元件的初始化動作,選用元件具有下列優點:

  • 選用元件經過測試,可與特定 Dataproc 版本相容。
  • 選用元件是透過叢集建立參數啟用;初始化動作則需要指令碼。

可用的選用元件

選用元件 Google Cloud CLI 指令和 API 請求中的元件名稱
映像檔版本 發佈階段
Delta Lake DELTA 2.2.46 以上版本 GA
Docker DOCKER 1.5 以上版本 GA
Flink FLINK 1.5 以上版本 GA
HBase HBASE 1.5 以上版本
(不適用於 2.1 以上版本)
已淘汰
Hive WebHCat HIVE_WEBHCAT 1.3 含以上 GA
Hudi HUDI 1.5 以上版本 GA
Iceberg ICEBERG 2.2 以上版本 GA
Jupyter Notebook JUPYTER 1.3 含以上 GA
Pig PIG 1.5* 以上版本 GA
Presto PRESTO 1.3 以上版本
(不適用於 2.1 以上版本)
GA
Ranger RANGER 1.3 含以上 GA
Solr SOLR 1.3 含以上 GA
Trino TRINO 2.1 以上版本 GA
Zeppelin Notebook ZEPPELIN 1.3 含以上 GA
Zookeeper ZOOKEEPER 1.0 以上版本 GA

注意:

  • 在映像檔 2.3 以上版本中,Apache Pig 是選用元件。在 2.2 和更早的映像檔版本中,這項功能是預先安裝的。

新增選用元件

控制台

  1. 在 Google Cloud 控制台中,前往 Dataproc 的「Create a cluster」(建立叢集) 頁面。

    前往「建立叢集」

    系統會選取「設定叢集」面板。

  2. 在「元件」部分中,選取「選用元件」下方的一或多個元件,安裝在叢集上。

Google Cloud CLI

如要建立 Dataproc 叢集,並在叢集上安裝一或多個選用元件,請使用 gcloud beta dataproc clusters create cluster-name 指令搭配 --optional-components 標記。

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

您可以透過 Dataproc API,使用 SoftwareConfig.Component,做為 clusters.create 要求的一部分,指定選用元件。