Crea un clúster de JupyterLab de Dataproc desde Dataproc Hub
Selecciona la pestaña Notebooks administrados por el usuario en la página Dataproc → Workbench de la consola de Google Cloud.
Haz clic en Abrir JupyterLab en la fila que enumera la instancia de Dataproc Hub creada por el administrador.
Si no tienes acceso a la consola de Google Cloud, ingresa la URL de la instancia de Dataproc Hub que un administrador compartió contigo en tu navegador web.
En la página Jupyterhub→Dataproc Options, selecciona una configuración y una zona del clúster. Si está habilitada, especifica las personalizaciones y, luego, haz clic en Crear.
Después de crear el clúster de Dataproc, se te redireccionará a la interfaz de JupyterLab que se ejecuta en el clúster.
Crea un notebook y ejecuta un trabajo de Spark
En el panel izquierdo de la interfaz de JupyterLab, haz clic en GCS (Cloud Storage).
Crea un notebook de PySpark desde el selector de JupyterLab.
El kernel de PySpark inicializa un SparkContext (mediante la variable sc).
Puedes examinar SparkContext y ejecutar un trabajo de Spark desde el notebook.
rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b))
print(rdd.collect())
Asigna un nombre y guarda el notebook. El notebook se guarda y permanece en Cloud Storage después de que se borra el clúster de Dataproc.
Cierra el clúster de Dataproc
En la interfaz de JupyterLab, selecciona File→Hub Control Panel para abrir la página Jupyterhub.
Haz clic en Detener mi clúster para cerrar (borrar) el servidor de JupyterLab, que borra el clúster de Dataproc.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-04-03 (UTC)"],[[["Dataproc Hub and Vertex AI Workbench user-managed notebooks are deprecated and will no longer be supported after January 30, 2025."],["You can use Dataproc Hub to create a single-user JupyterLab notebook environment running on a Dataproc cluster, utilizing a configured cluster and zone from the Dataproc Options page."],["Users can create a PySpark notebook within the JupyterLab interface, allowing them to run Spark jobs, and the notebook is saved in Cloud Storage even after the Dataproc cluster is deleted."],["To shut down the Dataproc cluster, users must navigate to the Jupyterhub page and click \"Stop My Cluster,\" which deletes the JupyterLab server and the Dataproc cluster, but not the Dataproc Hub instance itself."],["The admin user must grant the `notebooks.instances.use` permission for a user to be able to utilize Dataproc Hub."]]],[]]