Criar um cluster do Dataproc usando o console do Google Cloud

Esta página mostra como usar o console do Google Cloud para criar um cluster do Dataproc, executar um job básico do Apache Spark no cluster e modificar o número de workers no cluster.


Para seguir as instruções passo a passo desta tarefa diretamente no console do Google Cloud, clique em Orientação:

Orientações


Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Enable the Dataproc API.

    Enable the API

Crie um cluster

  1. No console do Google Cloud, acesse a página do Dataproc Clusters.

    Acessar Clusters

  2. Clique em Criar cluster.

  3. Na caixa de diálogo Criar cluster do Dataproc, clique em Criar no a linha Cluster no Compute Engine.

  4. No campo Nome do cluster, insira example-cluster.

  5. Nas listas Região e Zona, selecione uma região e uma zona.

    Selecione uma região (por exemplo, us-east1 ou europe-west1) para isolar recursos, como instâncias de máquina virtual (VM) e Cloud Storage e locais de armazenamento de metadados utilizados pelo Dataproc, na região. Para mais informações, consulte Regiões e zonas disponíveis e Endpoints regionais.

  6. Para todas as outras opções, use as configurações padrão.

  7. Para criar o cluster, clique em Criar.

    O novo cluster aparece em uma lista na página Clusters. O status é Em Provisionamento até que o cluster esteja pronto para uso, e depois o status muda para Running. O provisionamento do cluster pode levar alguns minutos.

Enviar um job do Spark

Envie um job do Spark que estima um valor de Pi:

  1. No menu de navegação do Dataproc, clique em Jobs.
  2. Na página Jobs, clique em Envie o job e execute o seguinte:

    1. No campo Cluster, clique em Procurar.
    2. Na linha de example-cluster, clique em Selecionar.
    3. No campo ID do job, use a configuração padrão ou informe um ID que é exclusivo do projeto do Google Cloud.
    4. Em Tipo de job, selecione Spark.
    5. No campo Classe principal ou jar, insira org.apache.spark.examples.SparkPi
    6. No campo Arquivos jar, insira file:///usr/lib/spark/examples/jars/spark-examples.jar
    7. No campo Argumentos, insira 1000 para definir o número de tarefas.

    8. Clique em Enviar.

      O job é exibido na página Detalhes do job. O status da tarefa é Em execução ou Iniciando e muda para Concluído depois de em que ele for enviado.

      Para evitar a rolagem na saída, clique em Quebra de linha: off. A saída será semelhante a esta:

      Pi is roughly 3.1416759514167594
      

      Para ver os detalhes do job, clique na guia Configuração.

Atualize um cluster

Atualize o cluster alterando o número de instâncias de worker:

  1. No menu de navegação, clique em Clusters.
  2. Na lista de clusters, clique em example-cluster.
  3. Na página Detalhes do cluster, clique na guia Configuração.

    As configurações do cluster serão exibidas.

  4. Clique em Editar.

  5. No campo Nós de trabalho, digite 5.

  6. Clique em Salvar.

Seu cluster foi atualizado. Para diminuir o número de nós de trabalho para o do valor original, siga o mesmo procedimento.

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

  1. Na página Detalhes do cluster de example-cluster, clique em Excluir para excluir o cluster.
  2. Para confirmar que você quer excluir o cluster, clique em Excluir.

A seguir