Esecuzione di un'istanza di blocchi note gestiti su un cluster Dataproc

Questa pagina mostra come eseguire il file blocco note di un'istanza di blocchi note gestiti su un cluster Dataproc.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Notebooks and Dataproc APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Notebooks and Dataproc APIs.

    Enable the APIs

  8. Se non l'hai ancora fatto, crea un'istanza di notebook gestiti.
  9. Ruoli obbligatori

    Per assicurarti che il account di servizio disponga delle autorizzazioni necessarie per eseguire un file notebook su un cluster Dataproc Serverless, chiedi all'amministratore di concedere al account di servizio i seguenti ruoli IAM:

    Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

    Questi ruoli predefiniti contengono le autorizzazioni necessarie per eseguire un file notebook su un cluster Dataproc Serverless. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

    Autorizzazioni obbligatorie

    Per eseguire un file notebook su un cluster Dataproc Serverless sono necessarie le seguenti autorizzazioni:

    • dataproc.agents.create
    • dataproc.agents.delete
    • dataproc.agents.get
    • dataproc.agents.update
    • dataproc.tasks.lease
    • dataproc.tasks.listInvalidatedLeases
    • dataproc.tasks.reportStatus
    • dataproc.clusters.use

    L'amministratore potrebbe anche essere in grado di concedere all'account di servizio queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

    Crea un cluster Dataproc

    Per eseguire il file del blocco note di un'istanza di blocchi note gestiti in un cluster Dataproc, il cluster deve soddisfare i seguenti criteri:

    • Il gateway dei componenti del cluster deve essere abilitato.

    • Il cluster deve avere il componente Jupyter.

    • Il cluster deve trovarsi nella stessa regione dell'istanza di notebook gestiti.

    Per creare il cluster Dataproc, inserisci il seguente comando in Cloud Shell o in un altro ambiente in cui è installata Google Cloud CLI.

    gcloud dataproc clusters create CLUSTER_NAME\
        --region=REGION \
        --enable-component-gateway \
        --optional-components=JUPYTER

    Sostituisci quanto segue:

    • REGION: la Google Cloud posizione dell'istanza di blocchi note gestiti

    • CLUSTER_NAME: il nome del nuovo cluster

    Dopo alcuni minuti, il cluster Dataproc è pronto per l'uso. Scopri di più sulla creazione di cluster Dataproc.

    Apri JupyterLab

    1. Se non l'hai ancora fatto, crea un'istanza di blocchi note gestiti nella stessa regione in cui si trova il cluster Dataproc.

    2. Nella console Google Cloud , vai alla pagina Blocchi note gestiti.

      Vai a Notebook gestiti

    3. Fai clic su Apri JupyterLab accanto al nome dell'istanza di blocchi note gestiti.

    Esegui un file notebook nel cluster Dataproc

    Puoi eseguire un file notebook nel cluster Dataproc da qualsiasi istanza di blocchi note gestiti nello stesso progetto e nella stessa regione.

    Esegui un nuovo file notebook

    1. Nell'interfaccia JupyterLab dell'istanza di notebook gestiti, seleziona File > Nuovo > Notebook.

    2. I kernel disponibili del cluster Dataproc vengono visualizzati nel menu Seleziona kernel. Seleziona il kernel che vuoi utilizzare e poi fai clic su Seleziona.

      Si apre il nuovo file del notebook.

    3. Aggiungi il codice al nuovo file del notebook ed eseguilo.

    Per modificare il kernel che vuoi utilizzare dopo aver creato il file del notebook, consulta la sezione seguente.

    Esegui un file notebook esistente

    1. Nell'interfaccia JupyterLab dell'istanza di blocchi note gestiti, fai clic sul pulsante  Esplora file, vai al file del blocco note che vuoi eseguire e aprilo.

    2. Per aprire la finestra di dialogo Seleziona kernel, fai clic sul nome del kernel del file del notebook, ad esempio Python (locale).

    3. Per selezionare un kernel dal cluster Dataproc, seleziona un nome del kernel che includa il nome del cluster alla fine. Ad esempio, un kernel PySpark su un cluster Dataproc denominato mycluster viene denominato PySpark su mycluster.

    4. Fai clic su Seleziona per chiudere la finestra di dialogo.

      Ora puoi eseguire il codice del file del notebook sul cluster Dataproc.

    Passaggi successivi