Quando crei o aggiorni un cluster virtuale Dataproc su GKE, specifichi uno o più pool di nodi che il cluster virtuale utilizzerà per eseguire i job (questo cluster è indicato come cluster "utilizzato da" o "associato" ai pool di nodi specificati). Se un pool di nodi specificato non esiste nel tuo cluster GKE, Dataproc on GKE lo creerà con le impostazioni specificate. Se il pool di nodi esiste ed è stato creato da Dataproc, viene convalidato per verificare che le sue impostazioni corrispondano a quelle specificate.
Impostazioni del pool di nodi Dataproc su GKE
Puoi specificare le seguenti impostazioni nei pool di nodi utilizzati dai cluster virtuali Dataproc su GKE (queste impostazioni sono un sottoinsieme di impostazioni del pool di nodi GKE):
accelerators
acceleratorCount
acceleratorType
gpuPartitionSize
*localSsdCount
machineType
minCpuPlatform
minNodeCount
maxNodeCount
preemptible
spot
*
Note:
gpuPartitionSize
può essere impostato nell'API DataprocGkeNodePoolAcceleratorConfig
.spot
può essere impostato in GkeNodeConfig dell'API Dataproc.
Eliminazione del node pool
Quando un cluster Dataproc su GKE viene eliminato, i pool di nodi utilizzati dal cluster non vengono eliminati. Consulta Eliminare un node pool per eliminare i node pool non più in uso da Dataproc sui cluster GKE.
Posizione del node pool
Puoi specificare la posizione della zona del pool di nodi associato al tuo cluster virtuale Dataproc on GKE quando crei o aggiorni il cluster virtuale. Le zone del pool di nodi devono essere situate nella regione del cluster virtuale associato.
Mappatura dei ruoli ai pool di nodi
I ruoli
del pool di nodi sono definiti per il lavoro del driver e dell'executor di Spark, con un ruolo predefinito
definito per tutti i tipi di lavoro da un pool di nodi. I cluster Dataproc su GKE devono avere almeno un pool di nodi a cui è assegnato il ruolo default
.
L'assegnazione di altri ruoli è facoltativa.
Consiglio:crea pool di nodi separati per ogni tipo di ruolo, con tipo di nodo e dimensioni in base ai requisiti del ruolo.
Esempio di creazione di un cluster virtuale con gcloud CLI:
gcloud dataproc clusters gke create "${DP_CLUSTER}" \ --region=${REGION} \ --gke-cluster=${GKE_CLUSTER} \ --spark-engine-version=latest \ --staging-bucket=${BUCKET} \ --pools="name=${DP_POOLNAME},roles=default \ --setup-workload-identity --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \ --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \ --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"