Criar um cluster do Dataproc JupyterLab no Dataproc Hub
Selecione a guia Notebooks gerenciados pelo usuário na página
Dataproc → Workbench
no console do Google Cloud.
Clique em Abrir o JupyterLab na linha que
lista a instância do Dataproc Hub criada pelo administrador.
Se você não tiver acesso ao console do Google Cloud, digite
URL da instância do Dataproc Hub que um
administrador compartilhou com você no navegador da Web.
Na página Jupyterhub→Opções do Dataproc, selecione
uma configuração e zona de cluster. Se ativado, especifique as personalizações
Clique em Criar.
Depois que o cluster do Dataproc for criado, você será redirecionado
à interface do JupyterLab em execução no cluster.
Criar um notebook e executar um job do Spark
No painel esquerdo da interface do JupyterLab, clique em GCS (Cloud Storage).
Criar um notebook PySpark no acesso rápido do JupyterLab
O kernel do PySpark inicializa um SparkContext (usando a variável sc).
Você pode examinar o SparkContext e executar um job do Spark no notebook.
rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b))
print(rdd.collect())
Nomeie e salve o notebook. O notebook é salvo e permanece no Cloud Storage depois que o cluster do Dataproc for excluído.
Encerrar o cluster do Dataproc
Na interface do JupyterLab, selecione Arquivo → Painel de controle do hub para
Abra a página do Jupyterhub.
Clique em Stop My Cluster para encerrar (excluir) o servidor JupyterLab, que
exclui o cluster do Dataproc.