テンプレートを使用して Spark ジョブを送信する
このページでは、Google API Explorer テンプレートを使用して、既存の Dataproc クラスタで簡単な Spark ジョブを実行する方法について説明します。
Dataproc クラスタにジョブを送信するその他の方法については、次に挙げるページをご覧ください。
始める前に
Dataproc ジョブを実行する前に、ジョブを実行する仮想マシン(VM)のクラスタを 1 つ以上作成する必要があります。API Explorer、Google Cloud コンソール、gcloud CLI の gcloud コマンドライン ツール、または Cloud クライアント ライブラリを使用したクイックスタートを使用してクラスタを作成できます。ジョブを送信する
円周率の近似値を計算するサンプルの Apache Spark ジョブを送信するには、Google API Explorer の [Try this API] テンプレートに入力します。
リクエスト パラメータ:
リクエストの本文:
- job.placement.clusterName: ジョブを実行するクラスタの名前(「example-cluster」を必要に応じて置き換えます)。
- job.sparkJob.args:「1000」(ジョブタスクの数)。
- job.sparkJob.jarFileUris:「file:///usr/lib/spark/examples/jars/spark-examples.jar」。これは、Spark Scala ジョブコードを含む jar がインストールされている Dataproc クラスタのマスターノード上のローカル ファイルパスです。
- job.sparkJob.mainClass:「org.apache.spark.examples.SparkPi」。これは、ジョブの円周率計算 Scala アプリケーションのメインメソッドです。
[EXECUTE] をクリックします。API テンプレートを初めて実行する場合、Google アカウントを選択してログインし、Google API Explorer からアカウントへのアクセスを承認するように求められます。リクエストが成功すると、ジョブ送信リクエストが保留中であることがJSON レスポンスに表示されます。
ジョブ出力を確認するには、 Google Cloud コンソールで Dataproc の [ジョブ] ページを開き、一番上(最新)のジョブ ID をクリックします。右マージンを超える行を表示するには [行の折り返し] をクリックします。
... Pi is roughly 3.141804711418047 ...
クリーンアップ
このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の手順を実施します。
- 他のクイックスタートの確認や、他のジョブを実行するためのクラスタが必要ない場合は、API Explorer、Google Cloud コンソール、gcloud CLI の gcloud コマンドライン ツール、または Cloud クライアント ライブラリを使用したクイックスタートを使用してクラスタを削除できます。
次のステップ
- テンプレートを使用して Dataproc クラスタを更新する方法を学習する。