Google Cloud コンソールを使用して Dataproc クラスタを作成する

このページでは、 Google Cloud コンソールを使用して Dataproc クラスタを作成し、クラスタで基本的な Apache Spark ジョブを実行してから、クラスタ内のワーカー数を変更する方法について説明します。

このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、「ガイドを表示」をクリックしてください。

始める前に

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Enable the API

クラスタを作成する

Google Cloud コンソールで、Dataproc の [クラスタ] ページに移動します。

[クラスタ] に移動
[クラスタを作成] をクリックします。
[Dataproc クラスタの作成] ダイアログで、[Compute Engine 上のクラスタ] 行の [作成] をクリックします。
[クラスタ名] フィールドに「example-cluster」と入力します。
[リージョン] リストと [ゾーン] リストで、リージョンとゾーンを選択します。

リージョン（us-east1 や europe-west1 など）を選択して、Dataproc によって利用されるリソース（仮想マシン（VM）インスタンス、Cloud Storage など）とメタデータの保存場所をリージョンごとに分離します。詳細については、使用可能なリージョンとゾーンおよびリージョンエンドポイントをご覧ください。
他のすべてのオプションについては、デフォルト設定を使用します。
クラスタを作成するには、[作成] をクリックします。

新しいクラスタが [クラスタ] ページのリストに表示されます。クラスタが使用できるようになるまでのステータスは [プロビジョニング] で、その後 [実行中] に変わります。クラスタのプロビジョニングには数分かかることがあります。

Spark ジョブを送信する

円周率の値を計算する Spark ジョブを送信します。

Dataproc のナビゲーションメニューで [ジョブ] をクリックします。
[ジョブ] ページで [ ジョブの送信] をクリックし、次の操作を行います。
1. [ジョブ ID] フィールドで、デフォルト設定を使用するか、 Google Cloud プロジェクトに固有の ID を指定します。
2. [クラスタ] プルダウンで [example-cluster] を選択します。
3. [ジョブタイプ] には、[Spark] を選択します。
4. [メインクラスまたは JAR] フィールドに「org.apache.spark.examples.SparkPi」と入力します。
5. [JAR ファイル] フィールドに「file:///usr/lib/spark/examples/jars/spark-examples.jar」と入力します。
6. [引数] フィールドに「1000」と入力して、タスクの数を設定します。
  
  注: Spark ジョブでは、モンテカルロ法を使用して Pi を推定します。これによって、単位正方形で囲まれた円をモデル化した座標平面上に x、y 点が生成されます。入力引数（1000）は、生成する x と y のペア数を決定します。生成するペアが多いほど、推定の精度が向上します。この推定では、Dataproc ワーカーノードを使用して計算が並列化されます。詳細については、モンテカルロ法を使用した Pi の推定と、GitHub の JavaSparkPi.java をご覧ください。
7. [送信] をクリックします。
  
  ジョブが [ジョブの詳細] ページに表示されます。ジョブのステータスは [実行中] または [開始中] で、送信後に [成功] に変わります。
  
  出力のスクロールを防ぐには、[行の折り返し: オフ] をクリックします。出力は次のようになります。
```
Pi is roughly 3.1416759514167594
```
  ジョブの詳細を表示するには、[構成] タブをクリックします。

クラスタを更新する

ワーカーインスタンスの数を変更してクラスタを更新します。

Dataproc のナビゲーションメニューで [クラスタ] をクリックします。
クラスタのリストで、[example-cluster] をクリックします。
[クラスタの詳細] ページで [構成] タブをクリックします。

クラスタの設定が表示されます。
[ 編集] をクリックします。
[ワーカーノード] フィールドに「5」と入力します。
[保存] をクリックします。

クラスタが更新されました。ワーカーノードの数を削減して元の値に戻すには、同じ手順に沿って操作します。

クリーンアップ

このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の手順を実施します。

クラスタを削除するには、example-cluster の [クラスタの詳細] ページで [ 削除] をクリックします。
クラスタの削除を確定するには、[削除] をクリックします。

次のステップ

他のツールを使用して、このクイックスタートを試す。
- API Explorer を使用する。
- Google Cloud CLI を使用する。
プロジェクトの作成時に堅牢なファイアウォールルールを作成する方法を確認する。
Spark Scala ジョブを記述して実行する方法を学習する。