Dataproc 選用 Pig 元件

當您使用選用元件功能建立 Dataproc 叢集時,可以安裝 Apache Pig 等其他元件。本頁面說明 Pig 元件,這是用於分析大型資料集的開放原始碼平台。

安裝元件

請在建立 Dataproc 叢集時安裝元件。

Apache Pig 是 Dataproc 2.3 以上映像檔版本的選用元件。

請參閱支援的 Dataproc 版本,瞭解最新 Dataproc 映像檔版本中包含的元件版本。

gcloud

如要建立包含 Pig 元件的 Dataproc 叢集,請使用 gcloud dataproc clusters create CLUSTER_NAME 指令搭配 --optional-components 標記 (使用 2.3 以上版本的映像檔)。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

REST API

您可以透過 Dataproc API,使用 SoftwareConfig.Component 做為 clusters.create 要求的一部分,指定 Pig 元件。

控制台

啟用元件:

  1. 在 Google Cloud 控制台中,開啟 Dataproc 的「Create a cluster」(建立叢集) 頁面。已選取「設定叢集」面板。
  2. 在「元件」部分的「選用元件」下方,選取要安裝在叢集上的 Pig 和其他選用元件。