Dataproc on GKE – Übersicht

Mit Dataproc auf GKE können Sie Big-Data-Anwendungen mithilfe der Dataproc jobs API auf GKE-Clustern ausführen. Verwenden Sie die Google Cloud Console, die Google Cloud CLI oder die Dataproc API (HTTP-Anfrage oder Cloud-Clientbibliotheken), um einen virtuellen Dataproc-Cluster in GKE zu erstellen und dann einen Spark-, PySpark-, SparkR- oder Spark-SQL-Job an den Dataproc-Dienst zu senden.

Dataproc auf GKE unterstützt Spark 3.5-Versionen.

Funktionsweise von Dataproc in GKE

Bei Dataproc auf GKE werden virtuelle Dataproc-Cluster in einem GKE-Cluster bereitgestellt. Im Gegensatz zu Dataproc on Compute Engine-Clustern enthalten virtuelle Dataproc on GKE-Cluster keine separaten Master- und Worker-VMs. Stattdessen werden beim Erstellen eines virtuellen Dataproc-on-GKE-Clusters Knotenpools in einem GKE-Cluster erstellt. Dataproc on GKE-Jobs werden als Pods in diesen Knotenpools ausgeführt. Die Knotenpools und die Planung von Pods in den Knotenpools werden von GKE verwaltet.