Dataproc di GKE memungkinkan Anda menjalankan aplikasi Big Data menggunakan Dataproc jobs
API di cluster GKE.
Gunakan Konsol Google Cloud, Google Cloud CLI, atau Dataproc API (permintaan HTTP atau Library Klien Cloud) untuk membuat Dataproc di cluster virtual GKE, lalu kirimkan tugas Spark, PySpark, Spark, atau Spark-SQL ke layanan Dataproc.
Dataproc di GKE mendukung versi Spark 2.4 dan Spark 3.1.
Cara kerja Dataproc di GKE
Dataproc di GKE men-deploy cluster virtual Dataproc di cluster GKE. Tidak seperti Dataproc di cluster Compute Engine, cluster virtual Dataproc di GKE tidak menyertakan VM master dan worker terpisah. Sebagai gantinya, saat Anda membuat Dataproc di cluster virtual GKE, Dataproc di GKE akan membuat node pool di dalam cluster GKE. Dataproc pada tugas GKE dijalankan sebagai pod pada node pool ini. Kumpulan node dan penjadwalan pod di kumpulan node dikelola oleh GKE.