當您使用選用元件功能建立 Dataproc 叢集時,可以安裝 Apache Pig 等其他元件。本頁面說明 Pig 元件,這是用於分析大型資料集的開放原始碼平台。
安裝元件
請在建立 Dataproc 叢集時安裝元件。
Apache Pig 是 Dataproc 2.3
以上映像檔版本的選用元件。
請參閱支援的 Dataproc 版本,瞭解最新 Dataproc 映像檔版本中包含的元件版本。
gcloud
如要建立包含 Pig 元件的 Dataproc 叢集,請使用 gcloud dataproc clusters create CLUSTER_NAME
指令搭配 --optional-components
標記 (使用 2.3 以上版本的映像檔)。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
REST API
您可以透過 Dataproc API,使用 SoftwareConfig.Component 做為 clusters.create 要求的一部分,指定 Pig 元件。
控制台
啟用元件:
- 在 Google Cloud 控制台中,開啟 Dataproc 的「Create a cluster」(建立叢集) 頁面。已選取「設定叢集」面板。
- 在「元件」部分的「選用元件」下方,選取要安裝在叢集上的 Pig 和其他選用元件。