Puedes instalar componentes adicionales, como Apache Pig, cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe el componente de Pig, una plataforma de código abierto para analizar grandes conjuntos de datos.
Instala el componente
Instala el componente cuando crees un clúster de Dataproc.
Apache Pig es un componente opcional en las versiones de imagen de Dataproc 2.3
y posteriores.
Consulta las versiones compatibles de Dataproc para conocer las versiones de los componentes incluidas en las versiones más recientes de imágenes de Dataproc.
gcloud
Para crear un clúster de Dataproc que incluya el componente Pig, usa el comando gcloud dataproc clusters create CLUSTER_NAME
con la marca --optional-components
(con la versión 2.3 o posterior de la imagen).
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
API de REST
El componente de Pig se puede especificar a través de la API de Dataproc con SoftwareConfig.Component como parte de una solicitud clusters.create.
Console
Habilita el componente:
- En la Google Cloud consola, abre la página Crear un clúster de Dataproc. Se selecciona el panel Configurar clúster.
- En la sección Componentes, en Componentes opcionales, selecciona Pig y otros componentes opcionales para instalar en tu clúster.