Composant Pig facultatif de Dataproc

Vous pouvez installer des composants supplémentaires tels qu'Apache Pig lorsque vous créez un cluster Dataproc à l'aide de la fonctionnalité Composants facultatifs. Cette page décrit le composant Pig, une plate-forme Open Source permettant d'analyser de grands ensembles de données.

Installer le composant

Installez le composant lorsque vous créez un cluster Dataproc.

Apache Pig est un composant facultatif dans les versions d'image Dataproc 2.3 et ultérieures.

Consultez la section Versions Dataproc compatibles pour connaître les versions de composants incluses dans les dernières versions d'image Dataproc.

gcloud

Pour créer un cluster Dataproc incluant le composant Pig, utilisez la commande gcloud dataproc clusters create CLUSTER_NAME avec l'indicateur --optional-components (à l'aide de la version d'image 2.3 ou ultérieure).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

API REST

Le composant Pig peut être spécifié via l'API Dataproc à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.

Console

Activez le composant :

  1. Dans la console Google Cloud , ouvrez la page Dataproc Créer un cluster. Le panneau "Configurer un cluster" est sélectionné.
  2. Dans la section "Composants", sous "Composants facultatifs", sélectionnez "Pig" et les autres composants facultatifs à installer sur votre cluster.