Executar uma instância de notebooks gerenciado em um cluster do Dataproc

Nesta página, mostramos como executar o arquivo de notebook de uma instância de notebooks gerenciado em um cluster do Dataproc.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Notebooks and Dataproc APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Notebooks and Dataproc APIs.

    Enable the APIs

  8. Crie uma instância de notebook gerenciado se ainda não tiver feito isso.

Funções exigidas

Para garantir que a conta de serviço tenha as permissões necessárias para executar um arquivo de notebook em um cluster do Dataproc sem servidor, peça ao administrador para conceder à conta de serviço os seguintes papéis do IAM:

Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Esses papéis predefinidos contêm as permissões necessárias para executar um arquivo de notebook em um cluster do Dataproc sem servidor. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para executar um arquivo de notebook em um cluster do Dataproc sem servidor:

  • dataproc.agents.create
  • dataproc.agents.delete
  • dataproc.agents.get
  • dataproc.agents.update
  • dataproc.tasks.lease
  • dataproc.tasks.listInvalidatedLeases
  • dataproc.tasks.reportStatus
  • dataproc.clusters.use

O administrador também pode conceder à conta de serviço essas permissões com papéis personalizados ou outros papéis predefinidos.

Criar um cluster do Dataproc

Para executar o arquivo de notebook de uma instância de notebooks gerenciado em um cluster do Dataproc, o cluster precisa atender aos seguintes critérios:

  • É necessário ativar o gateway do componente do cluster.

  • O cluster precisa ter o componente Jupyter.

  • O cluster precisa estar na mesma região que a instância de notebooks gerenciados.

Para criar o cluster do Dataproc, digite o comando a seguir no Cloud Shell ou em outro ambiente em que a CLI do Google Cloud esteja instalada.

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

Substitua:

  • REGION: o local do Google Cloud da instância de notebooks gerenciado

  • CLUSTER_NAME: o nome do novo cluster.

Após alguns minutos, o cluster do Dataproc estará disponível para uso. Saiba mais sobre como criar clusters do Dataproc.

Abrir JupyterLab

  1. Crie uma instância de notebook gerenciados na mesma região em que o cluster do Dataproc está, caso ainda não tenha feito isso.

  2. No Console do Google Cloud, acesse a página Notebooks gerenciados.

    Acessar Notebooks gerenciados

  3. Ao lado do nome da instância de notebooks gerenciados, clique em Abrir JupyterLab.

Executar um arquivo de notebook no cluster do Dataproc

É possível executar um arquivo de notebook no cluster do Dataproc em qualquer instância de notebooks gerenciados no mesmo projeto e região.

Executar um novo arquivo de notebook

  1. Na interface do JupyterLab da instância de notebooks gerenciados, selecione Arquivo > Novo > Notebook.

  2. Os kernels disponíveis do cluster do Dataproc aparecem no menu Selecionar kernel, selecione o kernel que você quer usar e clique em Selecionar.

    O novo arquivo do notebook será aberto.

  3. Adicione o código ao novo arquivo do notebook e execute o código.

Para alterar o kernel que você quer usar depois de criar o arquivo de notebook, consulte a seção a seguir.

Executar um arquivo de notebook existente

  1. Na interface do JupyterLab da instância de notebooks gerenciados, clique no botão  Navegador de arquivos, navegue até o arquivo de notebook que você quer executar e abra-o.

  2. Para abrir a caixa de diálogo Select Kernel, clique no nome do kernel do arquivo do notebook. Por exemplo: Python (Local).

  3. Para selecionar um kernel do cluster do Dataproc, selecione um nome do kernel que inclua o nome do cluster ao final. Por exemplo, um kernel do PySpark em um cluster do Dataproc chamado mycluster é chamado de PySpark em meucluster.

  4. Clique em Selecionar para fechar a caixa de diálogo.

    Agora é possível executar o código do arquivo do notebook no cluster do Dataproc.

A seguir