Membuat cluster JupyterLab Dataproc dari Dataproc Hub
Pilih tab Notebook yang Dikelola Pengguna di halaman
Dataproc→Workbench
di konsol Google Cloud.
Klik Open JupyterLab di baris yang mencantumkan instance Dataproc Hub yang dibuat oleh administrator.
Jika Anda tidak memiliki akses ke konsol Google Cloud, masukkan URL instance Dataproc Hub yang dibagikan oleh administrator kepada Anda di browser web.
Di halaman Jupyterhub→Dataproc Options, pilih
konfigurasi dan zona cluster. Jika diaktifkan, tentukan penyesuaian apa pun, lalu klik Create.
Setelah cluster Dataproc dibuat, Anda akan dialihkan
ke antarmuka JupyterLab yang berjalan di cluster.
Membuat notebook dan menjalankan tugas Spark
Di panel kiri antarmuka JupyterLab, klik GCS (Cloud Storage).
Buat notebook PySpark dari peluncur JupyterLab.
Kernel PySpark melakukan inisialisasi SparkContext (menggunakan variabel sc).
Anda dapat memeriksa SparkContext dan menjalankan tugas Spark dari notebook.
rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b))
print(rdd.collect())
Beri nama dan simpan notebook. Notebook disimpan dan tetap berada di Cloud Storage setelah cluster Dataproc dihapus.
Mematikan cluster Dataproc
Dari antarmuka JupyterLab, pilih File→Hub Control Panel untuk membuka halaman Jupyterhub.
Klik Stop My Cluster untuk menonaktifkan (menghapus) server JupyterLab, yang akan menghapus cluster Dataproc.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-04-03 UTC."],[[["Dataproc Hub and Vertex AI Workbench user-managed notebooks are deprecated and will no longer be supported after January 30, 2025."],["You can use Dataproc Hub to create a single-user JupyterLab notebook environment running on a Dataproc cluster, utilizing a configured cluster and zone from the Dataproc Options page."],["Users can create a PySpark notebook within the JupyterLab interface, allowing them to run Spark jobs, and the notebook is saved in Cloud Storage even after the Dataproc cluster is deleted."],["To shut down the Dataproc cluster, users must navigate to the Jupyterhub page and click \"Stop My Cluster,\" which deletes the JupyterLab server and the Dataproc cluster, but not the Dataproc Hub instance itself."],["The admin user must grant the `notebooks.instances.use` permission for a user to be able to utilize Dataproc Hub."]]],[]]