Dataproc JupyterLab-Cluster über Dataproc Hub erstellen
Wählen Sie in der Google Cloud Console auf der Seite Dataproc → Workbench den Tab Nutzerverwaltete Notebooks aus.
Klicken Sie in der Zeile mit der vom Administrator erstellten Dataproc Hub-Instanz auf JupyterLab öffnen.
Wenn Sie keinen Zugriff auf die Google Cloud Console haben, geben Sie in Ihrem Webbrowser die Dataproc Hub-Instanz-URL ein, die ein Administrator für Sie freigegeben hat.
Wählen Sie auf der Seite Jupyterhub → Dataproc-Optionen eine Clusterkonfiguration und -zone aus. Falls aktiviert, nehmen Sie die gewünschten Anpassungen vor und klicken Sie auf Erstellen.
Nachdem der Dataproc-Cluster erstellt wurde, werden Sie zur JupyterLab-Benutzeroberfläche weitergeleitet, die auf dem Cluster ausgeführt wird.
Notebook erstellen und einen Spark-Job ausführen
Klicken Sie im linken Bereich der JupyterLab-Benutzeroberfläche auf GCS (Cloud Storage).
Erstellen Sie ein PySpark-Notebook über den JupyterLab-Launcher.
Der PySpark-Kernel initialisiert einen SparkContext mithilfe der Variable sc.
Sie können den SparkContext untersuchen und einen Spark-Job aus dem Notebook ausführen.
rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b))
print(rdd.collect())
Benennen Sie das Notebook und speichern Sie es. Das Notebook wird gespeichert und verbleibt in Cloud Storage, nachdem der Dataproc-Cluster gelöscht wurde.
Dataproc-Cluster herunterfahren
Wählen Sie in der JupyterLab-Benutzeroberfläche File → Hub Control Panel (Datei → Hub-Steuerfeld) aus, um die Seite Jupyterhub zu öffnen.
Klicken Sie auf Stop My Cluster, um den JupyterLab-Server zu beenden (löschen), wodurch der Dataproc-Cluster gelöscht wird.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-04-02 (UTC)."],[[["Dataproc Hub and Vertex AI Workbench user-managed notebooks are deprecated and will no longer be supported after January 30, 2025."],["You can use Dataproc Hub to create a single-user JupyterLab notebook environment running on a Dataproc cluster, utilizing a configured cluster and zone from the Dataproc Options page."],["Users can create a PySpark notebook within the JupyterLab interface, allowing them to run Spark jobs, and the notebook is saved in Cloud Storage even after the Dataproc cluster is deleted."],["To shut down the Dataproc cluster, users must navigate to the Jupyterhub page and click \"Stop My Cluster,\" which deletes the JupyterLab server and the Dataproc cluster, but not the Dataproc Hub instance itself."],["The admin user must grant the `notebooks.instances.use` permission for a user to be able to utilize Dataproc Hub."]]],[]]