Dataproc 组件

创建集群时,标准 Apache Hadoop 生态系统组件会自动安装在集群上(请参阅 Dataproc 集群映像版本列表)。您可以在创建集群时在集群上安装其他组件,称为“可选组件”。向集群添加可选组件类似于通过使用初始化操作添加组件,但具有以下优势:

  • 缩短了集群启动时间
  • 经测试,可以与特定的 Dataproc 版本兼容
  • 使用集群参数,而不是初始化操作脚本

可用的可选组件

可选组件 Google Cloud CLI 命令和 API 请求中的
COMPONENT_NAME
映像版本 发布阶段
Delta Lake DELTA 2.2.46 及更高版本 GA
Docker DOCKER 1.5 及更高版本 GA
Flink FLINK 1.5 及更高版本 GA
HBase HBASE 1.5 及更高版本
(在 2.1 及更高版本中不可用)
Beta 版
Hive WebHCat HIVE_WEBHCAT 1.3 及更高版本 GA
Hudi Hudi 1.5 及更高版本 GA
Iceberg Iceberg 2.2 及更高版本 GA
Jupyter 笔记本 JUPYTER 1.3 及更高版本 GA
Presto PRESTO 1.3 及更高版本
(在 2.1 及更高版本中不可用)
GA
Ranger RANGER 1.3 及更高版本 GA
Solr SOLR 1.3 及更高版本 GA
Trino TRINO 2.1 及更高版本 GA
Zeppelin 笔记本 ZEPPELIN 1.3 及更高版本 GA
ZooKeeper ZOOKEEPER 1.0 及更高版本 GA

添加可选组件

控制台

  1. 在 Google Cloud 控制台中,前往 Dataproc 创建集群页面。

    前往“创建集群”

    设置集群面板已处于选中状态。

  2. 组件部分的可选组件下,选择一个或多个要安装在集群上的组件。

Google Cloud CLI

要创建 Dataproc 集群并在集群上安装一个或多个可选组件,请使用 gcloud beta dataproc clusters create cluster-name 命令和 --optional-components 标志。

gcloud dataproc clusters create cluster-name \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

可通过 Dataproc API 在 clusters.create 请求中使用 SoftwareConfig.Component 来指定可选组件。