Dataproc Serverless memungkinkan Anda menjalankan workload Spark tanpa mengharuskan Anda menyediakan dan mengelola cluster Dataproc Anda sendiri. Ada dua cara untuk menjalankan beban kerja Dataproc Serverless:
Workload batch Dataproc Serverless
Kirim beban kerja batch ke layanan Dataproc Serverless menggunakan konsolGoogle Cloud , Google Cloud CLI, atau Dataproc API. Layanan ini menjalankan workload pada infrastruktur komputasi terkelola, serta melakukan penskalaan otomatis resource sesuai kebutuhan. Biaya Dataproc Serverless hanya berlaku saat workload dijalankan.
Untuk memulai, lihat Menjalankan beban kerja batch Apache Spark.
Sesi interaktif Dataproc Serverless
Menulis dan menjalankan kode di notebook Jupyter selama sesi interaktif Dataproc Serverless untuk Spark. Anda dapat membuat sesi notebook dengan cara berikut:
Menjalankan kode PySpark di notebook BigQuery Studio. Gunakan notebook Python BigQuery untuk membuat sesi interaktif Dataproc Serverless berbasis Spark-Connect. Setiap notebook BigQuery hanya dapat memiliki satu sesi Dataproc Serverless aktif yang terkait dengannya.
Gunakan plugin JupyterLab Dataproc untuk membuat beberapa sesi notebook Jupyter dari template yang Anda buat dan kelola. Saat Anda menginstal plugin di komputer lokal atau VM Compute Engine, kartu yang berbeda yang sesuai dengan konfigurasi kernel Spark yang berbeda akan muncul di halaman peluncur JupyterLab. Klik kartu untuk membuat sesi notebook Dataproc Serverless, lalu mulai menulis dan menguji kode Anda di notebook.
Plugin JupyterLab Dataproc juga memungkinkan Anda menggunakan halaman peluncur JupyterLab untuk melakukan tindakan berikut:
- Membuat Dataproc di cluster Compute Engine.
- Kirim tugas ke Dataproc di cluster Compute Engine.
- Lihat log Google Cloud dan Spark.
Dataproc Serverless dibandingkan dengan Dataproc di Compute Engine
Jika Anda ingin menyediakan dan mengelola infrastruktur, lalu menjalankan beban kerja di Spark dan framework pemrosesan open source lainnya, gunakan Dataproc di Compute Engine. Tabel berikut mencantumkan perbedaan utama antara Dataproc di Compute Engine dan Dataproc Serverless.
Kemampuan | Dataproc Serverless | Dataproc di Compute Engine |
---|---|---|
Framework pemrosesan | Beban kerja batch: Spark 3.5 dan versi sebelumnya Sesi interaktif: Spark 3.5 dan versi sebelumnya |
Spark 3.5 dan versi sebelumnya. Framework open source lainnya, seperti Hive, Flink, Trino, dan Kafka |
Serverless | Ya | Tidak |
Waktu startup | 60 dtk | 90-an |
Kontrol infrastruktur | Tidak | Ya |
Pengelolaan resource | Berbasis Spark | Berbasis YARN |
Dukungan GPU | Ya | Ya |
Sesi interaktif | Ya | Tidak |
Container kustom | Ya | Tidak |
Akses VM (misalnya, SSH) | Tidak | Ya |
Versi Java | Java 17, 11 | Versi sebelumnya yang didukung |
Dukungan OS Login * |
Tidak | Ya |
Catatan:
- Kebijakan Login OS tidak berlaku untuk atau didukung oleh Dataproc Serverless.
Jika organisasi Anda menerapkan kebijakan
OS Login
, workload Dataproc Serverless-nya akan gagal.
Kepatuhan keamanan Dataproc Serverless
Dataproc Serverless mematuhi semua kedudukan data, CMEK, VPC-SC, dan persyaratan keamanan lainnya yang dipatuhi Dataproc.
Kemampuan beban kerja batch Dataproc Serverless
Anda dapat menjalankan jenis beban kerja batch Dataproc Serverless berikut:
- PySpark
- Spark SQL
- Spark R
- Spark (Java atau Scala)
Anda dapat menentukan properti Spark saat mengirimkan workload batch Dataproc Serverless.