Componente Pig opcional de Dataproc

Puedes instalar componentes adicionales, como Apache Pig, cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe el componente de Pig, una plataforma de código abierto para analizar grandes conjuntos de datos.

Instala el componente

Instala el componente cuando crees un clúster de Dataproc.

Apache Pig es un componente opcional en las versiones de imagen de Dataproc 2.3 y posteriores.

Consulta las versiones compatibles de Dataproc para conocer las versiones de los componentes incluidas en las versiones más recientes de imágenes de Dataproc.

gcloud

Para crear un clúster de Dataproc que incluya el componente Pig, usa el comando gcloud dataproc clusters create CLUSTER_NAME con la marca --optional-components (con la versión 2.3 o posterior de la imagen).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

API de REST

El componente de Pig se puede especificar a través de la API de Dataproc con SoftwareConfig.Component como parte de una solicitud clusters.create.

Console

Habilita el componente:

  1. En la Google Cloud consola, abre la página Crear un clúster de Dataproc. Se selecciona el panel Configurar clúster.
  2. En la sección Componentes, en Componentes opcionales, selecciona Pig y otros componentes opcionales para instalar en tu clúster.