Creare un cluster JupyterLab Dataproc da Dataproc Hub
Seleziona la scheda Notebook gestiti dall'utente nella pagina
Dataproc→Workbench
nella console Google Cloud.
Fai clic su Apri JupyterLab nella riga che elenca l'istanza Dataproc Hub creata dall'amministratore.
Se non hai accesso alla console Google Cloud, inserisci l'URL dell'istanza Dataproc Hub che un amministratore ha condiviso con te nel browser web.
Nella pagina Jupyterhub→Opzioni Dataproc, seleziona una configurazione e una zona del cluster. Se abilitato, specifica eventuali personalizzazioni, poi fai clic su Crea.
Dopo aver creato il cluster Dataproc, viene visualizzato un reindirizzamento all'interfaccia JupyterLab in esecuzione sul cluster.
Creare un notebook ed eseguire un job Spark
Nel riquadro a sinistra dell'interfaccia di JupyterLab, fai clic su GCS (Cloud Storage).
Crea un notebook PySpark dal programma di avvio JupyterLab.
Il kernel PySpark inizializza un contesto Spark (utilizzando la variabile sc).
Puoi esaminare SparkContext ed eseguire un job Spark dal notebook.
rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b))
print(rdd.collect())
Assegna un nome al blocco note e salvalo. Il notebook viene salvato e rimane in Cloud Storage dopo l'eliminazione del cluster Dataproc.
Spegni il cluster Dataproc
Nell'interfaccia di JupyterLab, seleziona File→Pannello di controllo dell'hub per aprire la pagina Jupyterhub.
Fai clic su Interrompi il mio cluster per arrestare (eliminare) il server JupyterLab, che elimina il cluster Dataproc.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-04-02 UTC."],[[["Dataproc Hub and Vertex AI Workbench user-managed notebooks are deprecated and will no longer be supported after January 30, 2025."],["You can use Dataproc Hub to create a single-user JupyterLab notebook environment running on a Dataproc cluster, utilizing a configured cluster and zone from the Dataproc Options page."],["Users can create a PySpark notebook within the JupyterLab interface, allowing them to run Spark jobs, and the notebook is saved in Cloud Storage even after the Dataproc cluster is deleted."],["To shut down the Dataproc cluster, users must navigate to the Jupyterhub page and click \"Stop My Cluster,\" which deletes the JupyterLab server and the Dataproc cluster, but not the Dataproc Hub instance itself."],["The admin user must grant the `notebooks.instances.use` permission for a user to be able to utilize Dataproc Hub."]]],[]]