使用可选组件功能创建 Dataproc 集群时,您可以安装 Apache Pig 等其他组件。本页面介绍了 Pig 组件,这是一个用于分析大型数据集的开源平台。
安装组件
在创建 Dataproc 集群时安装组件。
在 Dataproc 2.3
及更高版本的映像版本中,Apache Pig 是一项可选组件。
如需查看最新 Dataproc 映像版本中包含的组件版本,请参阅支持的 Dataproc 版本。
gcloud
如需创建包含 Pig 组件的 Dataproc 集群,请使用带有 --optional-components
标志的 gcloud dataproc clusters create CLUSTER_NAME
命令(使用映像版本 2.3 或更高版本)。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
REST API
可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Pig 组件指定为 clusters.create 请求的一部分。
控制台
启用组件:
- 在 Google Cloud 控制台中,打开 Dataproc 创建集群页面。选中“设置集群”面板。
- 在“组件”部分的“可选组件”下,选择 Pig 以及其他一些要在集群上安装的可选组件。