Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Mit Dataproc auf GKE können Sie Big-Data-Anwendungen mithilfe der Dataproc jobs API auf GKE-Clustern ausführen.
Verwenden Sie die Google Cloud Console, die Google Cloud CLI oder die Dataproc API (HTTP-Anfrage oder Cloud-Clientbibliotheken), um einen virtuellen Dataproc-Cluster in GKE zu erstellen und dann einen Spark-, PySpark-, SparkR- oder Spark-SQL-Job an den Dataproc-Dienst zu senden.
Bei Dataproc auf GKE werden virtuelle Dataproc-Cluster in einem GKE-Cluster bereitgestellt. Im Gegensatz zu Dataproc on Compute Engine-Clustern enthalten virtuelle Dataproc on GKE-Cluster keine separaten Master- und Worker-VMs. Stattdessen werden beim Erstellen eines virtuellen Dataproc-on-GKE-Clusters Knotenpools in einem GKE-Cluster erstellt. Dataproc on GKE-Jobs werden als Pods in diesen Knotenpools ausgeführt. Die Knotenpools und die Planung von Pods in den Knotenpools werden von GKE verwaltet.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-08-22 (UTC)."],[[["\u003cp\u003eDataproc on GKE enables the execution of Big Data applications on GKE clusters through the Dataproc \u003ccode\u003ejobs\u003c/code\u003e API.\u003c/p\u003e\n"],["\u003cp\u003eYou can create a Dataproc on GKE virtual cluster and then submit Spark, PySpark, SparkR, or Spark-SQL jobs via the Google Cloud console, Cloud CLI, or the Dataproc API.\u003c/p\u003e\n"],["\u003cp\u003eDataproc on GKE utilizes virtual clusters, which, unlike Dataproc on Compute Engine clusters, do not have separate master and worker VMs.\u003c/p\u003e\n"],["\u003cp\u003eDataproc on GKE job are run as pods on node pools and is managed by GKE.\u003c/p\u003e\n"],["\u003cp\u003eDataproc on GKE supports Spark 3.5 versions.\u003c/p\u003e\n"]]],[],null,["# Dataproc on GKE overview\n\nDataproc on GKE allows you to execute Big Data applications using the\nDataproc `jobs` API on GKE clusters.\nUse the Google Cloud console, Google Cloud CLI or the Dataproc API\n(HTTP request or Cloud Client Libraries) to\n[create a Dataproc on GKE virtual cluster](/dataproc/docs/guides/dpgke/quickstarts/dataproc-gke-quickstart-create-cluster),\nthen submit a Spark, PySpark, SparkR, or Spark-SQL job to the Dataproc\nservice.\n\nDataproc on GKE supports\n[Spark 3.5 versions](/dataproc/docs/guides/dpgke/dataproc-gke-versions).\n\nHow Dataproc on GKE works\n-------------------------\n\nDataproc on GKE deploys Dataproc **virtual** clusters on\na GKE cluster. Unlike\n[Dataproc on Compute Engine clusters](/dataproc/docs/guides/create-cluster),\nDataproc on GKE virtual clusters do not include separate\nmaster and worker VMs. Instead, when you create a Dataproc on GKE virtual cluster,\nDataproc on GKE creates node pools within a GKE cluster. Dataproc on GKE\njobs are run as pods on these node pools. The node pools and\nscheduling of pods on the node pools are managed by GKE."]]