Optionale Dataproc-Pig-Komponente

Sie können zusätzliche Komponenten wie Apache Pig installieren, wenn Sie einen Dataproc-Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird die Pig-Komponente beschrieben, eine Open-Source-Plattform zum Analysieren großer Datasets.

Komponente installieren

Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen.

Apache Pig ist eine optionale Komponente in Dataproc-Image-Versionen 2.3 und höher.

Informationen zu den Komponentenversionen, die in den neuesten Dataproc-Image-Releases enthalten sind, finden Sie unter Unterstützte Dataproc-Versionen.

gcloud

Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Pig-Komponente enthält, den Befehl gcloud dataproc clusters create CLUSTER_NAME mit dem Flag --optional-components (mit Image-Version 2.3 oder höher).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

REST API

Die Pig-Komponente kann über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.

Console

Aktivieren Sie die Komponente:

  1. Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
  2. Wählen Sie im Abschnitt „Komponenten“ unter „Optionale Komponenten“ Pig und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.