Visão geral do Dataproc no GKE

O Dataproc no GKE permite executar aplicativos de Big Data usando a API jobs do Dataproc em clusters do GKE. Use o console Google Cloud , a Google Cloud CLI ou a API Dataproc (solicitação HTTP ou bibliotecas de cliente do Cloud) para criar um cluster virtual do Dataproc no GKE e envie um job do Spark, PySpark, SparkR ou Spark SQL para o serviço do Dataproc.

O Dataproc no GKE é compatível com as versões 3.5 do Spark.

Como o Dataproc no GKE funciona

O Dataproc no GKE implanta clusters virtuais do Dataproc em um cluster do GKE. Ao contrário dos clusters do Dataproc no Compute Engine, os clusters virtuais do Dataproc no GKE não incluem VMs mestre e worker separadas. Em vez disso, quando você cria um cluster virtual do Dataproc no GKE, o Dataproc no GKE cria pools de nós em um cluster do GKE. Os jobs do Dataproc no GKE são executados como pods nesses pools de nós. Os pools de nós e o agendamento de pods neles são gerenciados pelo GKE.