Dataproc on GKE 總覽

您可以在 GKE 叢集上使用 Dataproc jobs API,透過 Dataproc on GKE 執行大數據應用程式。使用 Google Cloud 主控台、Google Cloud CLI 或 Dataproc API (HTTP 要求或 Cloud 用戶端程式庫) 建立 Dataproc on GKE 虛擬叢集,然後將 Spark、PySpark、SparkR 或 Spark-SQL 工作提交至 Dataproc 服務。

Dataproc on GKE 支援 Spark 3.5 版本

Dataproc on GKE 的運作方式

Dataproc on GKE 會在 GKE 叢集上部署 Dataproc 虛擬叢集。與 Compute Engine 叢集上的 Dataproc 不同,GKE 虛擬叢集上的 Dataproc 不包含個別的主要和工作站 VM。不過,當您建立 Dataproc on GKE 虛擬叢集時,Dataproc on GKE 會在 GKE 叢集中建立節點集區。Dataproc on GKE 工作會以 Pod 形式在這些節點集區上執行。節點集區和節點集區中 Pod 的排程由 GKE 管理。