Membuat tugas kustom dengan pembuat tugas

Builder tugas memungkinkan Anda membuat tugas Dataflow streaming dan batch kustom. Anda juga dapat menyimpan tugas builder tugas sebagai file Apache Beam YAML untuk dibagikan dan digunakan kembali.

Membuat pipeline baru

Untuk membuat pipeline baru di pembuat tugas, ikuti langkah-langkah berikut:

  1. Buka halaman Jobs di konsol Google Cloud.

    Buka Tugas

  2. Klik Buat tugas dari builder.

  3. Untuk Job name, masukkan nama untuk tugas.

  4. Pilih Batch atau Streaming.

  5. Jika Anda memilih Streaming, pilih mode jendela. Kemudian, masukkan spesifikasi untuk jendela, sebagai berikut:

    • Periode tetap: Masukkan ukuran periode, dalam detik.
    • Periode geser: Masukkan ukuran periode dan periode jendela, dalam detik.
    • Interval sesi: Masukkan jeda sesi, dalam detik.

    Untuk informasi selengkapnya tentang jendela, lihat Jendela dan fungsi jendela.

Selanjutnya, tambahkan sumber, transformasi, dan sink ke pipeline, seperti yang dijelaskan di bagian berikut.

Menambahkan sumber ke pipeline

Pipeline harus memiliki minimal satu sumber. Awalnya, pembuat tugas diisi dengan sumber kosong. Untuk mengonfigurasi sumber, lakukan langkah-langkah berikut:

  1. Di kotak Nama sumber, masukkan nama untuk sumber atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.

  2. Dalam daftar Source type, pilih jenis sumber data.

  3. Bergantung pada jenis sumber, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih BigQuery, tentukan tabel yang akan dibaca.

    Jika Anda memilih Pub/Sub, tentukan skema pesan. Masukkan nama dan jenis data setiap kolom yang ingin Anda baca dari pesan Pub/Sub. Pipeline menghapus kolom yang tidak ditentukan dalam skema.

  4. Opsional: Untuk beberapa jenis sumber, Anda dapat mengklik Pratinjau data sumber untuk melihat pratinjau data sumber.

Untuk menambahkan sumber lain ke pipeline, klik Tambahkan sumber. Untuk menggabungkan data dari beberapa sumber, tambahkan transformasi SQL atau Join ke pipeline Anda.

Menambahkan transformasi ke pipeline

Secara opsional, tambahkan satu atau beberapa transformasi ke pipeline. Anda dapat menggunakan transformasi berikut untuk memanipulasi, menggabungkan, atau menggabungkan data dari sumber dan transformasi lainnya:

Jenis transformasi Deskripsi Informasi Transformasi YAML Beam
Filter (Python) Memfilter kumpulan data dengan ekspresi Python.
Transformasi SQL Manipulasi data atau gabungkan beberapa input dengan pernyataan SQL.
Gabung Menggabungkan beberapa input pada kolom yang sama.
Memetakan Kolom (Python) Menambahkan kolom baru atau memetakan ulang seluruh kumpulan data dengan ekspresi dan fungsi Python.
Memetakan Kolom (SQL) Menambahkan atau memetakan kolom data dengan ekspresi SQL.
Kelompokkan menurut Gabungkan data dengan fungsi seperti count() dan sum().
Transformasi YAML:
  1. AssertEqual
  2. AssignTimestamps
  3. Menggabungkan
  4. Explode
  5. Filter
  6. Ratakan
  7. Gabung
  8. LogForTesting
  9. MLTransform
  10. MapToFields
  11. PyTransform
  12. WindowInfo

Gunakan transformasi apa pun dari Beam YAML SDK.

Konfigurasi transformasi YAML: Berikan parameter konfigurasi untuk transformasi YAML sebagai peta YAML. Pasangan nilai kunci digunakan untuk mengisi bagian konfigurasi dari transformasi Beam YAML yang dihasilkan. Untuk parameter konfigurasi yang didukung untuk setiap jenis transformasi, lihat dokumentasi transformasi YAML Beam. Contoh parameter konfigurasi:

Menggabungkan
group_by:
combine:
Gabung
type:
equalities:
fields:
Explode Memisahkan data dengan meratakan kolom array.

Untuk menambahkan transformasi:

  1. Klik Tambahkan transformasi.

  2. Di kotak nama Transform, masukkan nama untuk transformasi atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.

  3. Dalam daftar Transform type, pilih jenis transformasi.

  4. Bergantung pada jenis transformasi, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih Filter (Python), masukkan ekspresi Python yang akan digunakan sebagai filter.

  5. Pilih langkah input untuk transformasi. Langkah input adalah sumber atau transformasi yang output-nya memberikan input untuk transformasi ini.

Menambahkan sink ke pipeline

Pipeline harus memiliki minimal satu sink. Awalnya, pembuat tugas diisi dengan sink kosong. Untuk mengonfigurasi sink, lakukan langkah-langkah berikut:

  1. Di kotak Sink name, masukkan nama untuk sink atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.

  2. Dalam daftar Sink type, pilih jenis sink.

  3. Bergantung pada jenis sink, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih sink BigQuery, pilih tabel BigQuery yang akan ditulis.

  4. Pilih langkah input untuk sink. Langkah input adalah sumber atau transformasi yang output-nya memberikan input untuk transformasi ini.

  5. Untuk menambahkan sink lain ke pipeline, klik Tambahkan sink.

Menjalankan pipeline

Untuk menjalankan pipeline dari pembuat tugas, lakukan langkah-langkah berikut:

  1. Opsional: Tetapkan opsi tugas Dataflow. Untuk meluaskan bagian Opsi aliran data, klik panah peluas .

  2. Klik Run job. Builder tugas membuka grafik tugas untuk tugas yang dikirim. Anda dapat menggunakan grafik tugas untuk memantau status tugas.

Memvalidasi pipeline sebelum diluncurkan

Untuk pipeline dengan konfigurasi yang kompleks, seperti filter Python dan ekspresi SQL, sebaiknya periksa konfigurasi pipeline untuk menemukan error sintaksis sebelum diluncurkan. Untuk memvalidasi sintaksis pipeline, lakukan langkah-langkah berikut:

  1. Klik Validasi untuk membuka Cloud Shell dan memulai layanan validasi.
  2. Klik Mulai Validasi.
  3. Jika ditemukan error selama validasi, tanda seru merah akan muncul.
  4. Perbaiki error yang terdeteksi dan verifikasi perbaikan dengan mengklik Validasi. Jika tidak ada error yang ditemukan, tanda centang hijau akan muncul.

Menjalankan dengan gcloud CLI

Anda juga dapat menjalankan pipeline YAML Beam menggunakan gcloud CLI. Untuk menjalankan pipeline pembuat tugas dengan gcloud CLI:

  1. Klik Save YAML untuk membuka jendela Save YAML.

  2. Lakukan salah satu tindakan berikut:

    • Untuk menyimpan ke Cloud Storage, masukkan jalur Cloud Storage, lalu klik Simpan.
    • Untuk mendownload file lokal, klik Download.
  3. Jalankan perintah berikut di shell atau terminal:

      gcloud dataflow yaml run my-job-builder-job --yaml-pipeline-file=YAML_FILE_PATH
    

    Ganti YAML_FILE_PATH dengan jalur file YAML Anda, baik secara lokal maupun di Cloud Storage.

Langkah berikutnya