Componente Pig opcional do Dataproc

É possível instalar componentes adicionais, como o Apache Pig, ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Nesta página, descrevemos o componente Pig, uma plataforma de código aberto para analisar grandes conjuntos de dados.

Instalar o componente

Instale o componente ao criar um cluster do Dataproc.

O Apache Pig é um componente opcional no Dataproc 2.3 e em versões de imagem posteriores.

Consulte Versões compatíveis do Dataproc para as versões de componentes incluídas nas versões mais recentes de imagens do Dataproc.

gcloud

Para criar um cluster do Dataproc que inclua o componente Pig, use o comando gcloud dataproc clusters create CLUSTER_NAME com a flag --optional-components (usando a versão 2.3 ou mais recente da imagem).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

API REST

O componente Pig pode ser especificado por meio da API Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.

Console

Ative o componente:

  1. No console do Google Cloud , abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado.
  2. Na seção "Componentes", em "Componentes opcionais", selecione Pig e outros componentes opcionais para instalar no cluster.