Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Ao criar ou atualizar um cluster virtual do Dataproc no GKE, você especifica um ou mais pools de nós que o cluster virtual vai usar para executar jobs. Esse cluster é chamado de cluster "usado por" ou "associado" aos pools de nós especificados. Se um pool de nós especificado não existir no cluster do GKE, o Dataproc no GKE vai criar o pool de nós no cluster do GKE com as configurações especificadas. Se o pool de nós existir e tiver sido criado pelo Dataproc, ele será validado para confirmar se as configurações correspondem às especificadas.
Configurações do pool de nós do Dataproc no GKE
É possível especificar as seguintes configurações nos pools de nós usados pelos clusters virtuais do Dataproc no GKE. Essas configurações são um subconjunto das configurações do pool de nós do GKE:
spot pode ser definido no GkeNodeConfig da API Dataproc.
Exclusão do pool de nós
Quando um cluster do Dataproc no GKE é excluído, os pools de nós usados por ele
não são excluídos. Consulte Excluir um pool de nós
para excluir pools de nós que não são mais usados pelos clusters do Dataproc no GKE.
Local do pool de nós
É possível especificar o local da zona dos pools de nós associados ao cluster virtual do Dataproc no GKE ao criar ou atualizar o cluster virtual. As zonas do pool de nós precisam estar
localizadas na região do cluster virtual associado.
Mapeamento de função para pool de nós
As funções do pool de nós
são definidas para o trabalho do driver e do executor do Spark, com uma função padrão
definida para todos os tipos de trabalho por um pool de nós. Os clusters do Dataproc no GKE precisam ter pelo menos um pool de nós atribuído à função default.
A atribuição de outras funções é opcional.
Recomendação:crie pools de nós separados para cada tipo de função, com tipo e tamanho de nó com base nos requisitos da função.
Exemplo de criação de cluster virtual da CLI gcloud:
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-02 UTC."],[[["\u003cp\u003eDataproc on GKE virtual clusters utilize node pools to run jobs, and if a specified node pool doesn't exist, Dataproc on GKE will create it with the designated settings.\u003c/p\u003e\n"],["\u003cp\u003eYou can define various settings for Dataproc on GKE node pools, including \u003ccode\u003eaccelerators\u003c/code\u003e, \u003ccode\u003emachineType\u003c/code\u003e, \u003ccode\u003eminNodeCount\u003c/code\u003e, \u003ccode\u003emaxNodeCount\u003c/code\u003e, \u003ccode\u003epreemptible\u003c/code\u003e, and \u003ccode\u003espot\u003c/code\u003e, among others.\u003c/p\u003e\n"],["\u003cp\u003eWhen a Dataproc on GKE cluster is deleted, the associated node pools are not automatically deleted, and they need to be deleted separately.\u003c/p\u003e\n"],["\u003cp\u003eNode pool zones must reside within the same region as the associated virtual cluster, and they can be specified when creating or updating the virtual cluster.\u003c/p\u003e\n"],["\u003cp\u003eNode pools are assigned roles such as \u003ccode\u003edefault\u003c/code\u003e, \u003ccode\u003espark-driver\u003c/code\u003e, and \u003ccode\u003espark-executor\u003c/code\u003e, with at least one node pool needing to be assigned the \u003ccode\u003edefault\u003c/code\u003e role.\u003c/p\u003e\n"]]],[],null,["When you\n[create](/dataproc/docs/guides/dpgke/quickstarts/dataproc-gke-quickstart-create-cluster) or\n[update](/dataproc/docs/guides/dpgke/dataproc-gke-recreate-cluster)\na Dataproc on GKE virtual cluster, you specify one or more node pools that\nthe virtual cluster will use to run jobs (this cluster is referred to as the\ncluster \"used by\" or \"associated\" with the specified node pools). If a specified node pool\ndoes not exist on your GKE cluster, Dataproc on GKE\nwill create the node pool on the GKE cluster with settings\nyou specify. If the node pool exists and was created by Dataproc,\nit will be validated to confirm that its settings match the specified settings.\n\nDataproc on GKE node pool settings\n\nYou can specify the following\n[settings](/dataproc/docs/reference/rest/v1/projects.regions.clusters#gkenodeconfig)\non node pools used by your Dataproc on GKE virtual clusters (these\nsettings are a subset of\n[GKE node pool settings](/kubernetes-engine/docs/reference/rest/v1/NodeConfig)):\n\n- `accelerators`\n- `acceleratorCount`\n- `acceleratorType`\n- `gpuPartitionSize`\\*\n- `localSsdCount`\n- `machineType`\n- `minCpuPlatform`\n- `minNodeCount`\n- `maxNodeCount`\n- `preemptible`\n- `spot`\\*\n\nNotes:\n\n- `gpuPartitionSize` can be set in the Dataproc API [`GkeNodePoolAcceleratorConfig`](/dataproc/docs/reference/rest/v1/GkeClusterConfig#gkenodepoolacceleratorconfig).\n- `spot` can be set in the Dataproc API [GkeNodeConfig](/dataproc/docs/reference/rest/v1/projects.regions.clusters#gkenodeconfig).\n\nNode pool deletion\n\nWhen a Dataproc on GKE cluster is deleted, the node pools used by the cluster\nare not deleted. See [Delete a node pool](/kubernetes-engine/docs/how-to/node-pools#deleting_a_node_pool)\nto delete node pools no longer in use by Dataproc on GKE clusters.\n\nNode pool location\n\nYou can specify the\n[zone](/dataproc/docs/reference/rest/v1/projects.regions.clusters#GkeNodePoolConfig.FIELDS.locations)\nlocation of node pools associated with your Dataproc on GKE virtual cluster\nwhen you create or update the virtual cluster. The node pool zones must be\nlocated in the region of the associated virtual cluster.\n\nRole to node pool mapping\n\nNode pool [roles](/dataproc/docs/reference/rest/v1/projects.regions.clusters#Role)\nare defined for Spark driver and executor work, with a default role\ndefined for all types of work by a node pool. Dataproc on GKE clusters must have\nat least one a node pool that is assigned the `default` role.\nAssigning other roles is optional.\n\n**Recommendation:** Create separate node pools for each role type, with node type\nand size based on role requirements.\n\ngcloud CLI virtual cluster creation example: \n\n```\ngcloud dataproc clusters gke create \"${DP_CLUSTER}\" \\\n --region=${REGION} \\\n --gke-cluster=${GKE_CLUSTER} \\\n --spark-engine-version=latest \\\n --staging-bucket=${BUCKET} \\\n --pools=\"name=${DP_POOLNAME},roles=default \\\n --setup-workload-identity\n --pools=\"name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4\" \\\n --pools=\"name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4\" \\\n --pools=\"name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8\"\n```"]]