Dataproc em pools de nós do GKE

Ao criar ou atualizar um cluster virtual do Dataproc no GKE, você especifica um ou mais pools de nós que o cluster virtual vai usar para executar jobs. Esse cluster é chamado de "usado por" ou "associado" aos pools de nós especificados. Se um pool de nós especificado não existe no seu cluster do GKE, o Dataproc no GKE vai criar o pool de nós no cluster do GKE com as configurações que você especificar. Se o pool de nós existe e foi criado pelo Dataproc, ele será validado para confirmar que as configurações correspondem às especificadas.

Configurações do pool de nós do Dataproc no GKE

É possível especificar as seguintes configurações em pools de nós usados pelos clusters virtuais do Dataproc on GKE (esses são um subconjunto Configurações do pool de nós do GKE):

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

Observações:

Exclusão do pool de nós

Quando um cluster do Dataproc no GKE é excluído, os pools de nós usados por ele não são excluídos. Consulte Excluir um pool de nós para excluir pools de nós que não estão mais em uso pelo Dataproc em clusters do GKE.

Local do pool de nós

É possível especificar zona local dos pools de nós associados ao cluster virtual do Dataproc no GKE quando você cria ou atualiza o cluster virtual. As zonas do pool de nós precisam estar localizadas na região do cluster virtual associado.

Papel para mapeamento do pool de nós

Papéis do pool de nós são definidos para o trabalho do driver e do executor do Spark, com um papel padrão definidos para todos os tipos de trabalho por um pool de nós. O Dataproc em clusters do GKE precisa ter pelo menos um pool de nós atribuído ao papel default. A atribuição de outras funções é opcional.

Recomendação: crie pools de nós separados para cada tipo de papel, com o tipo de nó de acordo com os requisitos da função.

Exemplo de criação de cluster virtual da CLI gcloud:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"