Node pool Dataproc on GKE

Quando crei o aggiorni un cluster virtuale Dataproc su GKE, specifichi uno o più node pool che il cluster virtuale utilizzerà per eseguire i job (questo cluster è denominato cluster "utilizzato da" o "associato" ai node pool specificati). Se un pool di nodi specificato non esiste nel tuo cluster GKE, Dataproc su GKE creerà il pool di nodi nel cluster GKE con le impostazioni che specifichi. Se il pool di nodi esiste ed è stato creato da Dataproc, verrà convalidato per confermare che le sue impostazioni corrispondono a quelle specificate.

Impostazioni pool di nodi di Dataproc su GKE

Puoi specificare le seguenti impostazioni sui node pool utilizzati dai tuoi cluster virtuali Dataproc su GKE (queste impostazioni sono un sottoinsieme delle impostazioni pool di nodi GKE):

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

Note:

Eliminazione del node pool

Quando un cluster Dataproc su GKE viene eliminato, i pool di nodi utilizzati dal cluster non vengono eliminati. Consulta Elimina un node pool per eliminare i node pool non più utilizzati dai cluster Dataproc su GKE.

Località del node pool

Puoi specificare la zona dei pool di nodi associati al tuo cluster virtuale Dataproc su GKE quando crei o aggiorni il cluster virtuale. Le zone pool di nodi devono trovarsi nella regione del cluster virtuale associato.

Mappatura ruolo-pool di nodi

I ruoli del node pool sono definiti per il lavoro del driver e dell'executor Spark, con un ruolo predefinito definito per tutti i tipi di lavoro da un pool di nodi. I cluster Dataproc su GKE devono avere almeno un pool di nodi a cui è assegnato il ruolo default. L'assegnazione di altri ruoli è facoltativa.

Consiglio:crea pool di nodi separati per ogni tipo di ruolo, con tipo e dimensioni dei nodi in base ai requisiti del ruolo.

Esempio di creazione di un cluster virtuale gcloud CLI:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"