创建集群时,标准 Apache Hadoop 生态系统组件会自动安装在集群中(请参阅 Dataproc 版本列表)。 您可以在创建集群时在集群上安装称为“可选组件”的其他组件。 向集群添加可选组件类似于通过使用初始化操作添加组件,但具有以下优势:
- 缩短了集群启动时间
- 经测试,可以与特定的 Dataproc 版本兼容
- 使用集群参数,而不是初始化操作脚本
可用的可选组件
可选组件 | gcloud 命令和 API 请求中的 COMPONENT_NAME |
映像版本 | 发布阶段 |
---|---|---|---|
Docker | DOCKER | 1.5 及更高版本 | GA |
Flink | FLINK | 1.5 及更高版本 | GA |
HBase | HBASE | 1.5 及更高版本 (在 2.1 及更高版本中不可用) |
Beta 版 |
Hive WebHCat | HIVE_WEBHCAT | 1.3 及更高版本 | GA |
Hudi | Hudi | 1.5 及更高版本 | GA |
Jupyter 笔记本 | JUPYTER | 1.3 及更高版本 | GA |
Presto | PRESTO | 1.3 及更高版本 (在 2.1 及更高版本中不可用) |
GA |
Ranger | RANGER | 1.3 及更高版本 | GA |
Solr | SOLR | 1.3 及更高版本 | GA |
Trino | TRINO | 2.1 及更高版本 | GA |
Zeppelin 笔记本 | ZEPPELIN | 1.3 及更高版本 | GA |
ZooKeeper | ZOOKEEPER | 1.0 及更高版本 | GA |
添加可选组件
gcloud 命令
要创建 Dataproc 集群并在集群上安装一个或多个可选组件,请使用 gcloud beta dataproc clusters create cluster-name
命令和 --optional-components
标志。
gcloud dataproc clusters create cluster-name \ --optional-components=COMPONENT-NAME(s) \ ... other flags
REST API
可以通过 Dataproc API 使用 SoftwareConfig.Component 将可选组件指定为 clusters.create 请求的一部分。控制台
在 Google Cloud 控制台中,打开 Dataproc 创建集群页面。选中“设置集群”面板。在“组件”部分的“可选组件”下,选择一个或多个要在集群上安装的组件。