Dataproc on GKE の概要

Dataproc on GKE を使用すると、Dataproc jobs API on GKE クラスタを使用して Big Data アプリケーションを実行できます。 Google Cloud コンソール、Google Cloud CLI、または Dataproc API（HTTP リクエストまたは Cloud クライアントライブラリ）を使用して、GKE 仮想クラスタで Dataproc を作成し、Spark を送信します。その後、PySpark、SparkR、または Spark-SQL ジョブを Dataproc サービスに対して実行します。

Dataproc on GKE では、Spark 3.5 のバージョンがサポートされています。

Dataproc on GKE の仕組み

Dataproc on GKE では、GKE クラスタに Dataproc 仮想クラスタがデプロイされます。Dataproc on Compute Engine クラスタとは異なり、Dataproc on GKE 仮想クラスタには、個別のマスター VM とワーカー VM が含まれません。代わりに、Dataproc on GKE 仮想クラスタを作成すると、Dataproc on GKE によって GKE クラスタ内にノードプールが作成されます。Dataproc on GKE ジョブは、こうしたノードプールで Pod として実行されます。ノードプールとノードプール上の Pod のスケジューリングは、GKE が管理します。