Dataproc 可选 Pig 组件

使用可选组件功能创建 Dataproc 集群时,您可以安装 Apache Pig 等其他组件。本页面介绍了 Pig 组件,这是一个用于分析大型数据集的开源平台。

安装组件

在创建 Dataproc 集群时安装组件。

在 Dataproc 2.3 及更高版本的映像版本中,Apache Pig 是一项可选组件。

如需查看最新 Dataproc 映像版本中包含的组件版本,请参阅支持的 Dataproc 版本

gcloud

如需创建包含 Pig 组件的 Dataproc 集群,请使用带有 --optional-components 标志的 gcloud dataproc clusters create CLUSTER_NAME命令(使用映像版本 2.3 或更高版本)。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

REST API

可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Pig 组件指定为 clusters.create 请求的一部分。

控制台

启用组件:

  1. 在 Google Cloud 控制台中,打开 Dataproc 创建集群页面。选中“设置集群”面板。
  2. 在“组件”部分的“可选组件”下,选择 Pig 以及其他一些要在集群上安装的可选组件。