Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Wenn Sie einen virtuellen Dataproc on GKE-Cluster erstellen oder aktualisieren, geben Sie einen oder mehrere Knotenpools an, die der virtuelle Cluster zum Ausführen von Jobs verwendet. Dieser Cluster wird als der Cluster bezeichnet, der von den angegebenen Knotenpools „verwendet“ oder „zugeordnet“ wird. Wenn ein angegebener Knotenpool in Ihrem GKE-Cluster nicht vorhanden ist, wird er von Dataproc in GKE mit den von Ihnen angegebenen Einstellungen im GKE-Cluster erstellt. Wenn der Knotenpool vorhanden ist und von Dataproc erstellt wurde, wird er validiert, um zu bestätigen, dass seine Einstellungen mit den angegebenen Einstellungen übereinstimmen.
Dataproc on GKE-Knotenpooleinstellungen
Sie können die folgenden Einstellungen für Knotenpools angeben, die von Ihren virtuellen Dataproc on GKE-Clustern verwendet werden. Diese Einstellungen sind eine Teilmenge der GKE-Knotenpooleinstellungen:
spot kann in der Dataproc API GkeNodeConfig festgelegt werden.
Knotenpool löschen
Wenn ein Dataproc on GKE-Cluster gelöscht wird, werden die vom Cluster verwendeten Knotenpools nicht gelöscht. Unter Knotenpool löschen finden Sie Informationen zum Löschen von Knotenpools, die nicht mehr von Dataproc in GKE-Clustern verwendet werden.
Knotenpoolstandort
Sie können den Zonen-Standort von Knotenpools angeben, die Ihrem virtuellen Dataproc on GKE-Cluster zugeordnet sind, wenn Sie den virtuellen Cluster erstellen oder aktualisieren. Die Knotenpoolzonen müssen sich in der Region des zugehörigen virtuellen Clusters befinden.
Zuordnung von Rolle zu Knotenpool
Rollen für Knotenpools werden für Spark-Treiber- und Executor-Arbeit definiert. Für alle Arten von Arbeit, die von einem Knotenpool ausgeführt werden, ist eine Standardrolle definiert. Dataproc on GKE-Cluster müssen mindestens einen Knotenpool haben, dem die Rolle default zugewiesen ist.
Das Zuweisen anderer Rollen ist optional.
Empfehlung:Erstellen Sie für jeden Rollentyp separate Knotenpools. Der Knotentyp und die Größe sollten auf den Rollenanforderungen basieren.
Beispiel für die Erstellung eines virtuellen Clusters mit der gcloud CLI:
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-09-04 (UTC)."],[[["\u003cp\u003eDataproc on GKE virtual clusters utilize node pools to run jobs, and if a specified node pool doesn't exist, Dataproc on GKE will create it with the designated settings.\u003c/p\u003e\n"],["\u003cp\u003eYou can define various settings for Dataproc on GKE node pools, including \u003ccode\u003eaccelerators\u003c/code\u003e, \u003ccode\u003emachineType\u003c/code\u003e, \u003ccode\u003eminNodeCount\u003c/code\u003e, \u003ccode\u003emaxNodeCount\u003c/code\u003e, \u003ccode\u003epreemptible\u003c/code\u003e, and \u003ccode\u003espot\u003c/code\u003e, among others.\u003c/p\u003e\n"],["\u003cp\u003eWhen a Dataproc on GKE cluster is deleted, the associated node pools are not automatically deleted, and they need to be deleted separately.\u003c/p\u003e\n"],["\u003cp\u003eNode pool zones must reside within the same region as the associated virtual cluster, and they can be specified when creating or updating the virtual cluster.\u003c/p\u003e\n"],["\u003cp\u003eNode pools are assigned roles such as \u003ccode\u003edefault\u003c/code\u003e, \u003ccode\u003espark-driver\u003c/code\u003e, and \u003ccode\u003espark-executor\u003c/code\u003e, with at least one node pool needing to be assigned the \u003ccode\u003edefault\u003c/code\u003e role.\u003c/p\u003e\n"]]],[],null,["When you\n[create](/dataproc/docs/guides/dpgke/quickstarts/dataproc-gke-quickstart-create-cluster) or\n[update](/dataproc/docs/guides/dpgke/dataproc-gke-recreate-cluster)\na Dataproc on GKE virtual cluster, you specify one or more node pools that\nthe virtual cluster will use to run jobs (this cluster is referred to as the\ncluster \"used by\" or \"associated\" with the specified node pools). If a specified node pool\ndoes not exist on your GKE cluster, Dataproc on GKE\nwill create the node pool on the GKE cluster with settings\nyou specify. If the node pool exists and was created by Dataproc,\nit will be validated to confirm that its settings match the specified settings.\n\nDataproc on GKE node pool settings\n\nYou can specify the following\n[settings](/dataproc/docs/reference/rest/v1/projects.regions.clusters#gkenodeconfig)\non node pools used by your Dataproc on GKE virtual clusters (these\nsettings are a subset of\n[GKE node pool settings](/kubernetes-engine/docs/reference/rest/v1/NodeConfig)):\n\n- `accelerators`\n- `acceleratorCount`\n- `acceleratorType`\n- `gpuPartitionSize`\\*\n- `localSsdCount`\n- `machineType`\n- `minCpuPlatform`\n- `minNodeCount`\n- `maxNodeCount`\n- `preemptible`\n- `spot`\\*\n\nNotes:\n\n- `gpuPartitionSize` can be set in the Dataproc API [`GkeNodePoolAcceleratorConfig`](/dataproc/docs/reference/rest/v1/GkeClusterConfig#gkenodepoolacceleratorconfig).\n- `spot` can be set in the Dataproc API [GkeNodeConfig](/dataproc/docs/reference/rest/v1/projects.regions.clusters#gkenodeconfig).\n\nNode pool deletion\n\nWhen a Dataproc on GKE cluster is deleted, the node pools used by the cluster\nare not deleted. See [Delete a node pool](/kubernetes-engine/docs/how-to/node-pools#deleting_a_node_pool)\nto delete node pools no longer in use by Dataproc on GKE clusters.\n\nNode pool location\n\nYou can specify the\n[zone](/dataproc/docs/reference/rest/v1/projects.regions.clusters#GkeNodePoolConfig.FIELDS.locations)\nlocation of node pools associated with your Dataproc on GKE virtual cluster\nwhen you create or update the virtual cluster. The node pool zones must be\nlocated in the region of the associated virtual cluster.\n\nRole to node pool mapping\n\nNode pool [roles](/dataproc/docs/reference/rest/v1/projects.regions.clusters#Role)\nare defined for Spark driver and executor work, with a default role\ndefined for all types of work by a node pool. Dataproc on GKE clusters must have\nat least one a node pool that is assigned the `default` role.\nAssigning other roles is optional.\n\n**Recommendation:** Create separate node pools for each role type, with node type\nand size based on role requirements.\n\ngcloud CLI virtual cluster creation example: \n\n```\ngcloud dataproc clusters gke create \"${DP_CLUSTER}\" \\\n --region=${REGION} \\\n --gke-cluster=${GKE_CLUSTER} \\\n --spark-engine-version=latest \\\n --staging-bucket=${BUCKET} \\\n --pools=\"name=${DP_POOLNAME},roles=default \\\n --setup-workload-identity\n --pools=\"name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4\" \\\n --pools=\"name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4\" \\\n --pools=\"name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8\"\n```"]]