Descripción general de Dataproc on GKE

Dataproc en GKE te permite ejecutar aplicaciones de Big Data con la API de jobs de Dataproc en clústeres de GKE. Usa la consola de Google Cloud, la CLI de Google Cloud o la API de Dataproc (solicitud HTTP o bibliotecas cliente de Cloud) para crear un clúster virtual de Dataproc en GKE y, luego, envía un trabajo de Spark, PySpark, SparkR o Spark SQL al servicio de Dataproc.

Dataproc en GKE admite Versiones de Spark 3.5.

Cómo funciona Dataproc en GKE

Dataproc en GKE implementa clústeres virtuales de Dataproc en un clúster de GKE. Desmarcar “Me gusta” Dataproc en clústeres de Compute Engine, Los clústeres virtuales de Dataproc on GKE no incluyen modelos VMs de instancia principal y de trabajador. En su lugar, cuando creas un clúster virtual de Dataproc on GKE, Dataproc en GKE crea grupos de nodos dentro de un clúster de GKE. Dataproc en GKE los trabajos se ejecutan como Pods en estos grupos de nodos. GKE administra los grupos de nodos y la programación de pods en ellos.