Dataproc 叢集包含下列類型的元件:
已安裝的元件:安裝在映像檔中,並在建立叢集時啟用的元件。
選用元件:您在建立叢集時選取要安裝及使用的元件。Dataproc 會根據叢集映像檔版本安裝及啟用選用元件,如下所示:
2.2
和更早的映像檔版本:系統會自動安裝選用元件。系統會在建立叢集時啟用所選選用元件,並解除安裝未選取的選用元件。2.3
以上版本的映像檔:建立叢集時,系統會安裝所有選用元件,但 Jupyter、Iceberg 和 Delta Lake 選用元件除外,因為這些元件已預先安裝在2.3
以上版本的映像檔中。如果叢集建立時未啟用預先安裝的選用元件,系統會從2.3
以上版本的映像檔叢集移除這些元件。詳情請參閱「Dataproc 2.3.x 發布版本」。
初始化動作元件:在叢集上安裝的元件,是您建立叢集時指定的初始化動作的一部分。
選用元件會先安裝在叢集上,然後才在叢集上執行初始化動作。
Dataproc 映像檔版本頁面會列出最新 Dataproc 映像檔版本中提供的元件和元件類型。
相較於用來安裝元件的初始化動作,選用元件具有下列優點:
- 選用元件經過測試,可與特定 Dataproc 版本相容。
- 選用元件是透過叢集建立參數啟用;初始化動作則需要指令碼。
可用的選用元件
選用元件 | Google Cloud CLI 指令和 API 請求中的元件名稱 |
映像檔版本 | 發佈階段 |
---|---|---|---|
Delta Lake | DELTA | 2.2.46 以上版本 | GA |
Docker | DOCKER | 1.5 以上版本 | GA |
Flink | FLINK | 1.5 以上版本 | GA |
HBase | HBASE | 1.5 以上版本 (不適用於 2.1 以上版本) |
已淘汰 |
Hive WebHCat | HIVE_WEBHCAT | 1.3 含以上 | GA |
Hudi | HUDI | 1.5 以上版本 | GA |
Iceberg | ICEBERG | 2.2 以上版本 | GA |
Jupyter Notebook | JUPYTER | 1.3 含以上 | GA |
Pig | PIG | 1.5* 以上版本 | GA |
Presto | PRESTO | 1.3 以上版本 (不適用於 2.1 以上版本) |
GA |
Ranger | RANGER | 1.3 含以上 | GA |
Solr | SOLR | 1.3 含以上 | GA |
Trino | TRINO | 2.1 以上版本 | GA |
Zeppelin Notebook | ZEPPELIN | 1.3 含以上 | GA |
Zookeeper | ZOOKEEPER | 1.0 以上版本 | GA |
注意:
- 在映像檔 2.3 以上版本中,Apache Pig 是選用元件。在
2.2
和更早的映像檔版本中,這項功能是預先安裝的。
新增選用元件
控制台
- 在 Google Cloud 控制台中,前往 Dataproc 的「Create a cluster」(建立叢集) 頁面。
系統會選取「設定叢集」面板。
- 在「元件」部分中,選取「選用元件」下方的一或多個元件,安裝在叢集上。
Google Cloud CLI
如要建立 Dataproc 叢集,並在叢集上安裝一或多個選用元件,請使用 gcloud beta dataproc clusters create cluster-name
指令搭配 --optional-components
標記。
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
REST API
您可以透過 Dataproc API,使用 SoftwareConfig.Component,做為 clusters.create 要求的一部分,指定選用元件。