É possível instalar componentes adicionais, como o Apache Pig, ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Nesta página, descrevemos o componente Pig, uma plataforma de código aberto para analisar grandes conjuntos de dados.
Instalar o componente
Instale o componente ao criar um cluster do Dataproc.
O Apache Pig é um componente opcional no Dataproc 2.3
e em versões de imagem posteriores.
Consulte Versões compatíveis do Dataproc para as versões de componentes incluídas nas versões mais recentes de imagens do Dataproc.
gcloud
Para criar um cluster do Dataproc que inclua o componente Pig, use o comando gcloud dataproc clusters create CLUSTER_NAME
com a flag --optional-components
(usando a versão 2.3 ou mais recente da imagem).
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
API REST
O componente Pig pode ser especificado por meio da API Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.
Console
Ative o componente:
- No console do Google Cloud , abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado.
- Na seção "Componentes", em "Componentes opcionais", selecione Pig e outros componentes opcionais para instalar no cluster.