借助 Dataproc on GKE,您可以在 GKE 集群上使用 Dataproc jobs
API 执行大数据应用。使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc API(HTTP 请求或 Cloud 客户端库)创建 Dataproc on GKE 虚拟集群,然后将 Spark、PySpark、SparkR 或 Spark-SQL 作业提交到 Dataproc 服务。
Dataproc on GKE 支持 Spark 3.5 版本。
Dataproc on GKE 的工作原理
Dataproc on GKE 会在 GKE 集群上部署 Dataproc 虚拟集群。与 Dataproc on Compute Engine 集群不同,Dataproc on GKE 虚拟集群不包含单独的主虚拟机和工作器虚拟机。相反,当您创建 Dataproc on GKE 虚拟集群时,Dataproc on GKE 会在 GKE 集群中创建节点池。Dataproc on GKE 作业会作为 Pod 在这些节点池上运行。节点池以及节点池上的 pod 调度由 GKE 管理。