Información general sobre Dataproc en GKE

Dataproc en GKE te permite ejecutar aplicaciones de Big Data mediante la API de jobs de Dataproc en clústeres de GKE. Usa la Google Cloud consola, la CLI de Google Cloud o la API de Dataproc (solicitud HTTP o bibliotecas de cliente de Cloud) para crear un clúster virtual de Dataproc en GKE y, a continuación, envía una tarea de Spark, PySpark, SparkR o Spark SQL al servicio de Dataproc.

Dataproc en GKE admite versiones de Spark 3.5.

Cómo funciona Dataproc en GKE

Dataproc en GKE implementa clústeres virtuales de Dataproc en un clúster de GKE. A diferencia de los clústeres de Dataproc en Compute Engine, los clústeres virtuales de Dataproc en GKE no incluyen VMs de maestro y de trabajador independientes. En su lugar, cuando creas un clúster virtual de Dataproc en GKE, Dataproc en GKE crea grupos de nodos en un clúster de GKE. Las tareas de Dataproc en GKE se ejecutan como pods en estos grupos de nodos. GKE gestiona los grupos de nodos y la programación de los pods en los grupos de nodos.