Mit Dataproc on GKE können Sie Big-Data-Anwendungen mit der Dataproc jobs
API auf GKE-Clustern ausführen.
Verwenden Sie die Google Cloud Console, die Google Cloud CLI oder die Dataproc API (HTTP-Anfrage oder Cloud-Clientbibliotheken), um einen virtuellen Dataproc-Cluster in GKE zu erstellen, und reichen Sie dann einen Spark-, PySpark-, SparkR- oder Spark-SQL-Job an den Dataproc-Dienst ein.
Dataproc on GKE unterstützt Spark 3.5-Versionen.
Funktionsweise von Dataproc in GKE
Bei Dataproc on GKE werden virtuelle Dataproc-Cluster in einem GKE-Cluster bereitgestellt. Im Gegensatz zu Dataproc in Compute Engine-Clustern enthalten Dataproc-Cluster in GKE keine separaten Master- und Worker-VMs. Wenn Sie einen virtuellen Dataproc-Cluster in GKE erstellen, werden stattdessen Knotenpools in einem GKE-Cluster erstellt. Dataproc-Jobs in GKE werden als Pods in diesen Knotenpools ausgeführt. Die Knotenpools und die Planung von Pods in den Knotenpools werden von GKE verwaltet.