Google Cloud コンソールを使用して Dataproc クラスタを作成する

このページでは、 Google Cloud コンソールを使用して Dataproc クラスタを作成し、クラスタで基本的な Apache Spark ジョブを実行してから、クラスタ内のワーカー数を変更する方法について説明します。


このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、「ガイドを表示」をクリックしてください。

ガイドを表示


始める前に

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

クラスタを作成する

  1. Google Cloud コンソール で、Dataproc の [クラスタ] ページに移動します。

    [クラスタ] に移動

  2. [クラスタを作成] をクリックします。

  3. [Dataproc クラスタの作成] ダイアログで、[Compute Engine 上のクラスタ] 行の [作成] をクリックします。

  4. [クラスタ名] フィールドに「example-cluster」と入力します。

  5. [リージョン] リストと [ゾーン] リストで、リージョンとゾーンを選択します。

    リージョン(us-east1europe-west1 など)を選択して、Dataproc によって利用されるリソース(仮想マシン(VM)インスタンス、Cloud Storage など)とメタデータの保存場所をリージョンごとに分離します。詳細については、使用可能なリージョンとゾーンおよびリージョン エンドポイントをご覧ください。

  6. 他のすべてのオプションについては、デフォルト設定を使用します。

  7. クラスタを作成するには、[作成] をクリックします。

    新しいクラスタが [クラスタ] ページのリストに表示されます。クラスタが使用できるようになるまでのステータスは [プロビジョニング] で、その後 [実行中] に変わります。クラスタのプロビジョニングには数分かかることがあります。

Spark ジョブを送信する

円周率の値を計算する Spark ジョブを送信します。

  1. Dataproc のナビゲーション メニューで [ジョブ] をクリックします。
  2. [ジョブ] ページで [ ジョブの送信] をクリックし、次の操作を行います。

    1. [ジョブ ID] フィールドで、デフォルト設定を使用するか、 Google Cloud プロジェクトに固有の ID を指定します。
    2. [クラスタ] プルダウンで [example-cluster] を選択します。
    3. [ジョブタイプ] には、[Spark] を選択します。
    4. [メインクラスまたは JAR] フィールドに「org.apache.spark.examples.SparkPi」と入力します。
    5. [JAR ファイル] フィールドに「file:///usr/lib/spark/examples/jars/spark-examples.jar」と入力します。
    6. [引数] フィールドに「1000」と入力して、タスクの数を設定します。

    7. [送信] をクリックします。

      ジョブが [ジョブの詳細] ページに表示されます。ジョブのステータスは [実行中] または [開始中] で、送信後に [成功] に変わります。

      出力のスクロールを防ぐには、[行の折り返し: オフ] をクリックします。出力は次のようになります。

      Pi is roughly 3.1416759514167594
      

      ジョブの詳細を表示するには、[構成] タブをクリックします。

クラスタを更新する

ワーカー インスタンスの数を変更してクラスタを更新します。

  1. Dataproc のナビゲーション メニューで [クラスタ] をクリックします。
  2. クラスタのリストで、[example-cluster] をクリックします。
  3. [クラスタの詳細] ページで [構成] タブをクリックします。

    クラスタの設定が表示されます。

  4. [ 編集] をクリックします。

  5. [ワーカーノード] フィールドに「5」と入力します。

  6. [保存] をクリックします。

クラスタが更新されました。ワーカーノードの数を削減して元の値に戻すには、同じ手順に沿って操作します。

クリーンアップ

このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の手順を行います。

  1. クラスタを削除するには、example-cluster の [クラスタの詳細] ページで [ 削除] をクリックします。
  2. クラスタの削除を確定するには、[削除] をクリックします。

次のステップ