Créer un cluster Dataproc JupyterLab à partir de Dataproc Hub
Sélectionnez l'onglet Notebooks gérés par l'utilisateur sur la page Dataproc → Workbench dans la console Google Cloud.
Cliquez sur Ouvrir JupyterLab dans la ligne contenant l'instance Dataproc Hub créée par l'administrateur.
Si vous n'avez pas accès à la console Google Cloud, saisissez l'URL de l'instance Dataproc Hub qu'un administrateur a partagée avec vous dans votre navigateur Web.
Sur la page Jupyterhub→Options Dataproc, sélectionnez une configuration et une zone de cluster. Si les personnalisations sont activées, spécifiez-les, puis cliquez sur Créer.
Une fois le cluster Dataproc créé, vous êtes redirigé vers l'interface JupyterLab exécutée sur le cluster.
Créer un notebook et exécuter une tâche Spark
Dans le panneau de gauche de l'interface JupyterLab, cliquez sur GCS (Cloud Storage).
Créez un notebook PySpark à partir du lanceur JupyterLab.
Le noyau PySpark initialise un SparkContext (à l'aide de la variable sc).
Vous pouvez examiner le SparkContext et exécuter une tâche Spark à partir du notebook.
rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b))
print(rdd.collect())
Nommez et enregistrez le notebook. Le notebook est enregistré et reste dans Cloud Storage après la suppression du cluster Dataproc.
Éteindre le cluster Dataproc
Dans l'interface JupyterLab, sélectionnez File→Hub Control Panel (Fichier → Panneau de configuration Hub) pour ouvrir la page Jupyterhub.
Cliquez sur Stop My Cluster (Arrêter mon cluster) pour arrêter (supprimer) le serveur JupyterLab, ce qui supprime le cluster Dataproc.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/04/03 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/04/03 (UTC)."],[[["Dataproc Hub and Vertex AI Workbench user-managed notebooks are deprecated and will no longer be supported after January 30, 2025."],["You can use Dataproc Hub to create a single-user JupyterLab notebook environment running on a Dataproc cluster, utilizing a configured cluster and zone from the Dataproc Options page."],["Users can create a PySpark notebook within the JupyterLab interface, allowing them to run Spark jobs, and the notebook is saved in Cloud Storage even after the Dataproc cluster is deleted."],["To shut down the Dataproc cluster, users must navigate to the Jupyterhub page and click \"Stop My Cluster,\" which deletes the JupyterLab server and the Dataproc cluster, but not the Dataproc Hub instance itself."],["The admin user must grant the `notebooks.instances.use` permission for a user to be able to utilize Dataproc Hub."]]],[]]