Componente Jupyter facoltativo di Dataproc

Puoi installare componenti aggiuntivi come Jupyter quando crei un utilizzando il cluster Componenti facoltativi funzionalità. Questa pagina descrive il componente Jupyter.

Il componente Jupyter è un notebook per un solo utente basato su web per l'analisi interattiva dei dati e supporta l'interfaccia utente web di JupyterLab. La UI web di Jupyter è disponibile sulla porta 8123 sul primo nodo master del cluster.

Avvia blocchi note per più utenti. Puoi creare un'istanza Vertex AI Workbench abilitata per Dataproc o installare il plug-in JupyterLab di Dataproc su una VM per fornire i notebook a più utenti.

Configura Jupyter. Jupyter può essere configurato fornendo dataproc:jupyter proprietà del cluster. Per ridurre il rischio di esecuzione di codice remoto tramite un server di blocchi note non protetto API, la proprietà predefinita del cluster dataproc:jupyter.listen.all.interfaces è false, che limita le connessioni a localhost (127.0.0.1) quando il gateway dei componenti abilitato (l'attivazione del gateway dei componenti è necessaria quando si installa il componente Jupyter).

Il blocco note Jupyter fornisce un kernel Python per eseguire il codice Spark e un kernel PySpark. Per impostazione predefinita, i blocchi note vengono salvati in Cloud Storage nel bucket temporaneo Dataproc, specificato dall'utente o creato automaticamente al momento della creazione del cluster. La posizione può essere modificata al momento della creazione del cluster utilizzando la proprietà del cluster dataproc:jupyter.notebook.gcs.dir.

Lavora con i file di dati. Puoi utilizzare un blocco note Jupyter per lavorare con i file di dati che sono stati caricati su Cloud Storage. Poiché il connettore Cloud Storage è preinstallato su un cluster Dataproc, puoi fare riferimento ai file direttamente nel notebook. Ecco un esempio di accesso ai file CSV in Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

Per esempi di PySpark, consulta Funzioni generiche di caricamento e salvataggio.

Installa Jupyter

Installa il componente quando crei un cluster Dataproc. Il componente Jupyter richiede l'attivazione del gateway dei componenti di Dataproc.

Console

  1. Attiva il componente.

Interfaccia a riga di comando gcloud

Per creare un cluster Dataproc che includa il componente Jupyter, utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components.

Esempio di versione dell'immagine predefinita più recente

Il seguente esempio installa il componente Jupyter su un cluster che utilizza la versione dell'immagine predefinita più recente.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API REST

Il componente Jupyter può essere installato tramite l'API Dataproc utilizzando SoftwareConfig.Component all'interno di una richiesta clusters.create.

Aprire le interfacce utente di Jupyter e JupyterLab

Fai clic sui link della console Google Cloud Component Gateway per aprire nel browser locale l'interfaccia utente di JupyterLab o Jupyter Notebook in esecuzione sul nodo principale del cluster.

Seleziona "GCS" o "Disco locale" per creare un nuovo blocco note Jupyter in entrambe le località.

Collega le GPU ai nodi master e worker

Puoi aggiungere GPU ai nodi master e worker del tuo cluster quando utilizzi un Jupyter Notebook per:

  1. Esegui la preelaborazione dei dati in Spark, poi raccogli un DataFrame sul master ed esegui TensorFlow
  2. Utilizzare Spark per orchestrare le esecuzioni di TensorFlow in parallelo
  3. Esegui Tensorflow-on-YARN
  4. Da utilizzare con altri scenari di machine learning che impiegano GPU