Menulis dan menjalankan tugas Spark Scala di Dataproc

Tutorial ini menggambarkan berbagai cara untuk membuat dan mengirimkan tugas Spark Scala ke cluster Dataproc, termasuk cara:

  • menulis dan mengompilasi aplikasi "Hello World" Spark Scala di mesin lokal dari command line menggunakan Scala REPL (Read-Evaluate-Print-Loop atau interpreter interaktif) atau alat build SBT
  • mengompilasi class Scala yang dikemas ke dalam file jar dengan manifes
  • mengirimkan jar Scala ke tugas Spark yang berjalan di cluster Dataproc Anda
  • memeriksa output tugas Scala dari konsol Google Cloud

Tutorial ini juga menunjukkan cara:

  • menulis dan menjalankan tugas mapreduce "WordCount" Spark Scala langsung di cluster Dataproc menggunakan REPL spark-shell

  • menjalankan contoh Apache Spark dan Hadoop yang telah diinstal sebelumnya pada cluster

Siapkan project Google Cloud Platform

Jika Anda belum melakukannya:

  1. Menyiapkan project
  2. Membuat bucket Cloud Storage
  3. Buat cluster Dataproc

Menulis dan mengompilasi kode Scala secara lokal

Sebagai latihan sederhana untuk tutorial ini, tulis aplikasi Scala "Hello World" menggunakan Scala REPL atau antarmuka command line SBT secara lokal di mesin pengembangan Anda.

Menggunakan Scala

  1. Download biner Scala dari halaman Scala Install
  2. Buka file, tetapkan variabel lingkungan SCALA_HOME, dan tambahkan ke jalur Anda, seperti yang ditunjukkan dalam petunjuk Penginstalan Scala. Contoh:

    export SCALA_HOME=/usr/local/share/scala
    export PATH=$PATH:$SCALA_HOME/
    

  3. Membuka Scala REPL

    $ scala
    Welcome to Scala version ...
    Type in expressions to have them evaluated.
    Type :help for more information.
    scala>
    

  4. Salin dan tempel kode HelloWorld ke Scala REPL

    object HelloWorld {
      def main(args: Array[String]): Unit = {
        println("Hello, world!")
      }
    }

  5. Simpan HelloWorld.scala dan keluar dari REPL

    scala> :save HelloWorld.scala
    scala> :q
    

  6. Kompilasi dengan scalac

    $ scalac HelloWorld.scala
    

  7. Mencantumkan file .class yang dikompilasi

    $ ls HelloWorld*.class
    HelloWorld$.class   HelloWorld.class
    

Menggunakan SBT

  1. Download SBT

  2. Buat project "HelloWorld", seperti yang ditunjukkan di bawah

    $ mkdir hello
    $ cd hello
    $ echo \
    'object HelloWorld {def main(args: Array[String]) = println("Hello, world!")}' > \
    HelloWorld.scala
    

  3. Buat file konfigurasi sbt.build untuk menetapkan artifactName (nama file jar yang akan Anda buat, di bawah) ke "HelloWorld.jar" (lihat Mengubah artefak default)

    echo \
    'artifactName := { (sv: ScalaVersion, module: ModuleID, artifact: Artifact) =>
    "HelloWorld.jar" }' > \
    build.sbt
    

  4. Luncurkan SBT dan jalankan kode

    $ sbt
    [info] Set current project to hello ...
    > run
    ... Compiling 1 Scala source to .../hello/target/scala-.../classes...
    ... Running HelloWorld
    Hello, world!
    [success] Total time: 3 s ...
    

  5. Mengemas kode ke dalam file jar dengan manifest yang menentukan titik entri class utama (HelloWorld), lalu keluar

    > package
    ... Packaging .../hello/target/scala-.../HelloWorld.jar ...
    ... Done packaging.
    [success] Total time: ...
    > exit
    

Membuat jar

Buat file jar dengan SBT atau menggunakan perintah jar.

Membuat jar dengan SBT

Perintah package SBT membuat file jar (lihat Menggunakan SBT).

Membuat jar secara manual

  1. Ubah direktori (cd) ke direktori yang berisi file HelloWorld*.class yang dikompilasi, lalu jalankan perintah berikut untuk mengemas file class ke dalam jar dengan manifes yang menentukan titik entri class utama (HelloWorld).
    $ jar cvfe HelloWorld.jar HelloWorld HelloWorld*.class
    added manifest
    adding: HelloWorld$.class(in = 637) (out= 403)(deflated 36%)
    adding: HelloWorld.class(in = 586) (out= 482)(deflated 17%)
    

Menyalin jar ke Cloud Storage

  1. Gunakan Google Cloud CLI untuk menyalin jar ke bucket Cloud Storage di project Anda
$ gcloud storage cp HelloWorld.jar gs://<bucket-name>/
Copying file://HelloWorld.jar [Content-Type=application/java-archive]...
Uploading   gs://bucket-name/HelloWorld.jar:         1.46 KiB/1.46 KiB

Mengirimkan jar ke tugas Spark Dataproc

  1. Gunakan konsolGoogle Cloud untuk mengirimkan file jar ke tugas Spark Dataproc Anda. Isi kolom di halaman Kirim tugas sebagai berikut:

    • Cluster: Pilih nama cluster Anda dari daftar cluster
    • Jenis tugas: Spark
    • Main class or jar: Tentukan jalur Cloud Storage URI ke jar HelloWorld Anda (gs://your-bucket-name/HelloWorld.jar).

      Jika jar Anda tidak menyertakan manifes yang menentukan titik entri ke kode Anda ("Main-Class: HelloWorld"), kolom "Main class or jar" harus menyatakan nama class Main Anda ("HelloWorld"), dan Anda harus mengisi kolom "Jar files" dengan jalur URI ke file jar Anda (gs://your-bucket-name/HelloWorld.jar).

  2. Klik Submit untuk memulai tugas. Setelah dimulai, tugas akan ditambahkan ke daftar Tugas.

  3. Klik ID Tugas untuk membuka halaman Tugas, tempat Anda dapat melihat output driver tugas.

Menulis dan menjalankan kode Spark Scala menggunakan REPL spark-shell cluster

Anda mungkin ingin mengembangkan aplikasi Scala langsung di cluster Dataproc. Hadoop dan Spark telah diinstal sebelumnya di cluster Dataproc, dan dikonfigurasi dengan konektor Cloud Storage, yang memungkinkan kode Anda membaca dan menulis data langsung dari dan ke Cloud Storage.

Contoh ini menunjukkan cara melakukan SSH ke node master cluster Dataproc project Anda, lalu menggunakan REPL spark-shell untuk membuat dan menjalankan aplikasi mapreduce wordcount Scala.

  1. SSH ke node master cluster Dataproc

    1. Buka halaman Dataproc Clusters project Anda di konsol Google Cloud , lalu klik nama cluster Anda.

    2. Di halaman detail cluster, pilih tab Instance VM, lalu klik pilihan SSH yang muncul di sebelah kanan baris nama cluster Anda.

      Jendela browser akan terbuka di direktori beranda Anda di node master

  2. Luncurkan spark-shell

    $ spark-shell
    ...
    Using Scala version ...
    Type in expressions to have them evaluated.
    Type :help for more information.
    ...
    Spark context available as sc.
    ...
    SQL context available as sqlContext.
    scala>
    

  3. Buat RDD (Resilient Distributed Dataset) dari cuplikan teks Shakespeare yang berada di Cloud Storage publik

    scala> val text_file = sc.textFile("gs://pub/shakespeare/rose.txt")
    

  4. Jalankan mapreduce wordcount pada teks, lalu tampilkan hasil wordcounts

    scala> val wordCounts = text_file.flatMap(line => line.split(" ")).map(word =>
    (word, 1)).reduceByKey((a, b) => a + b)
    scala> wordCounts.collect
    ... Array((call,1), (What's,1), (sweet.,1), (we,1), (as,1), (name?,1), (any,1), (other,1),
    (rose,1), (smell,1), (name,1), (a,2), (would,1), (in,1), (which,1), (That,1), (By,1))
    

  5. Simpan jumlah di <bucket-name>/wordcounts-out di Cloud Storage, lalu keluar dari scala-shell

    scala> wordCounts.saveAsTextFile("gs://<bucket-name>/wordcounts-out/")
    scala> exit
    

  6. Gunakan gcloud CLI untuk mencantumkan file output dan menampilkan isi file

    $ gcloud storage ls gs://bucket-name/wordcounts-out/
    gs://spark-scala-demo-bucket/wordcounts-out/
    gs://spark-scala-demo-bucket/wordcounts-out/_SUCCESS
    gs://spark-scala-demo-bucket/wordcounts-out/part-00000
    gs://spark-scala-demo-bucket/wordcounts-out/part-00001
    

  7. Memeriksa konten gs://<bucket-name>/wordcounts-out/part-00000

    $ gcloud storage cat gs://bucket-name/wordcounts-out/part-00000
    (call,1)
    (What's,1)
    (sweet.,1)
    (we,1)
    (as,1)
    (name?,1)
    (any,1)
    (other,1)
    

Menjalankan kode Contoh yang Sudah Diinstal

Node master Dataproc berisi file jar yang dapat dijalankan dengan contoh Apache Hadoop dan Spark standar.

Jenis Botol Master node /usr/lib/ location Sumber GitHub Dokumen Apache
Hadoop hadoop-mapreduce/hadoop-mapreduce-examples.jar link sumber Tutorial MapReduce
Spark spark/lib/spark-examples.jar link sumber Contoh Spark

Mengirimkan contoh ke cluster Anda dari command line

Contoh dapat dikirimkan dari komputer pengembangan lokal Anda menggunakan alat command line gcloud Google Cloud CLI (lihat Menggunakan konsol Google Cloud untuk mengirimkan tugas dari konsol Google Cloud ).

Contoh WordCount Hadoop

gcloud dataproc jobs submit hadoop --cluster=cluster-name \
    --region=region \
    --jars=file:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar \
    --class=org.apache.hadoop.examples.WordCount \
    -- URI of input file URI of output file

Contoh Spark WordCount

gcloud dataproc jobs submit spark --cluster=cluster-name \
    --region=region \
    --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
    --class=org.apache.spark.examples.JavaWordCount \
    -- URI of input file

Mematikan cluster

Untuk menghindari biaya berkelanjutan, nonaktifkan cluster dan hapus resource Cloud Storage (bucket dan file Cloud Storage) yang digunakan untuk tutorial ini.

Untuk mematikan cluster:

gcloud dataproc clusters delete cluster-name \
    --region=region

Untuk menghapus file jar Cloud Storage:

gcloud storage rm gs://bucket-name/HelloWorld.jar

Anda dapat menghapus bucket dan semua folder serta filenya dengan perintah berikut:

gcloud storage rm gs://bucket-name/ --recursive

Langkah berikutnya