Dataproc 叢集提供下列類型的元件:
已安裝的元件:在映像檔中安裝的元件,並在建立叢集時啟用。
選用元件:您在建立叢集時選取的元件,可在叢集中安裝及使用。Dataproc 會根據叢集映像檔版本安裝及啟用選用元件,如下所示:
2.2
以下的映像檔版本:系統會自動安裝選用元件。叢集建立時,系統會啟用所選選用元件,並停用未選取的選用元件。2.3
及後續映像檔版本:選用元件會在建立叢集時安裝。詳情請參閱 Dataproc 2.3.x 版本資訊。
初始化動作元件:在建立叢集時指定的初始化動作中,在叢集上安裝的元件。
在叢集上執行初始化動作之前,系統會先在叢集上安裝選用元件。
Dataproc 映像檔版本頁面會列出最新 Dataproc 映像檔版本中提供的元件和元件類型。
選用元件相較於用於安裝元件的初始化動作,具有下列優點:
- 選用元件經過測試,確認與特定 Dataproc 版本相容。
- 選用元件可透過叢集建立參數啟用;初始化動作則需要指令碼。
可用的選用元件
選用元件 | Google Cloud CLI 指令和 API 請求中的元件名稱 |
映像檔版本 | 發佈階段 |
---|---|---|---|
Delta Lake | DELTA | 2.2.46 以上版本 | GA |
Docker | DOCKER | 1.5 以上版本 | GA |
Flink | FLINK | 1.5 以上版本 | GA |
HBase | HBASE | 1.5 以上版本 (不適用於 2.1 以上版本) |
已淘汰 |
Hive WebHCat | HIVE_WEBHCAT | 1.3 含以上 | GA |
Hudi | HUDI | 1.5 以上版本 | GA |
Iceberg | ICEBERG | 2.2 以上版本 | GA |
Jupyter 筆記本 | JUPYTER | 1.3 含以上 | GA |
Pig | PIG | 1.5* 以上版本 | GA |
Presto | PRESTO | 1.3 以上版本 (不適用於 2.1 以上版本) |
GA |
Ranger | RANGER | 1.3 含以上 | GA |
Solr | SOLR | 1.3 含以上 | GA |
Trino | TRINO | 2.1 以上版本 | GA |
Zeppelin Notebook | ZEPPELIN | 1.3 含以上 | GA |
Zookeeper | ZOOKEEPER | 1.0 以上版本 | GA |
注意:
- 在 2.3 以上版本的映像檔中,Apache Pig 是選用元件。
2.2
以下版本已預先安裝此工具。
新增選用元件
控制台
- 在 Google Cloud 控制台中,前往 Dataproc 的「Create a cluster」頁面。
選取「設定叢集」面板。
- 在「元件」部分的「選用元件」下方,選取一或多個要安裝在叢集上的元件。
Google Cloud CLI
如要建立 Dataproc 叢集,並在叢集中安裝一或多個選用元件,請使用 gcloud beta dataproc clusters create cluster-name
指令搭配 --optional-components
標記。
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
REST API
您可以透過 Dataproc API,使用 SoftwareConfig.Component 做為 clusters.create 要求的一部分,指定選用元件。