Quando crei o aggiorni un cluster virtuale Dataproc su GKE, specifichi uno o più node pool che il cluster virtuale utilizzerà per eseguire i job (questo cluster è denominato cluster "utilizzato da" o "associato" ai node pool specificati). Se un pool di nodi specificato non esiste nel tuo cluster GKE, Dataproc su GKE creerà il pool di nodi nel cluster GKE con le impostazioni che specifichi. Se il pool di nodi esiste ed è stato creato da Dataproc, verrà convalidato per confermare che le sue impostazioni corrispondono a quelle specificate.
Impostazioni pool di nodi di Dataproc su GKE
Puoi specificare le seguenti impostazioni sui node pool utilizzati dai tuoi cluster virtuali Dataproc su GKE (queste impostazioni sono un sottoinsieme delle impostazioni pool di nodi GKE):
accelerators
acceleratorCount
acceleratorType
gpuPartitionSize
*localSsdCount
machineType
minCpuPlatform
minNodeCount
maxNodeCount
preemptible
spot
*
Note:
gpuPartitionSize
può essere impostato nell'API DataprocGkeNodePoolAcceleratorConfig
.spot
può essere impostato in GkeNodeConfig dell'API Dataproc.
Eliminazione del node pool
Quando un cluster Dataproc su GKE viene eliminato, i pool di nodi utilizzati dal cluster non vengono eliminati. Consulta Elimina un node pool per eliminare i node pool non più utilizzati dai cluster Dataproc su GKE.
Località del node pool
Puoi specificare la zona dei pool di nodi associati al tuo cluster virtuale Dataproc su GKE quando crei o aggiorni il cluster virtuale. Le zone pool di nodi devono trovarsi nella regione del cluster virtuale associato.
Mappatura ruolo-pool di nodi
I ruoli del node pool
sono definiti per il lavoro del driver e dell'executor Spark, con un ruolo predefinito
definito per tutti i tipi di lavoro da un pool di nodi. I cluster Dataproc su GKE devono avere
almeno un pool di nodi a cui è assegnato il ruolo default
.
L'assegnazione di altri ruoli è facoltativa.
Consiglio:crea pool di nodi separati per ogni tipo di ruolo, con tipo e dimensioni dei nodi in base ai requisiti del ruolo.
Esempio di creazione di un cluster virtuale gcloud CLI:
gcloud dataproc clusters gke create "${DP_CLUSTER}" \ --region=${REGION} \ --gke-cluster=${GKE_CLUSTER} \ --spark-engine-version=latest \ --staging-bucket=${BUCKET} \ --pools="name=${DP_POOLNAME},roles=default \ --setup-workload-identity --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \ --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \ --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"