Builder tugas memungkinkan Anda membuat tugas Dataflow streaming dan batch kustom. Anda juga dapat menyimpan tugas builder tugas sebagai file Apache Beam YAML untuk dibagikan dan digunakan kembali.
Membuat pipeline baru
Untuk membuat pipeline baru di pembuat tugas, ikuti langkah-langkah berikut:
Buka halaman Jobs di konsol Google Cloud.
Klik
Buat tugas dari builder.Untuk Job name, masukkan nama untuk tugas.
Pilih Batch atau Streaming.
Jika Anda memilih Streaming, pilih mode jendela. Kemudian, masukkan spesifikasi untuk jendela, sebagai berikut:
- Periode tetap: Masukkan ukuran periode, dalam detik.
- Periode geser: Masukkan ukuran periode dan periode jendela, dalam detik.
- Interval sesi: Masukkan jeda sesi, dalam detik.
Untuk informasi selengkapnya tentang jendela, lihat Jendela dan fungsi jendela.
Selanjutnya, tambahkan sumber, transformasi, dan sink ke pipeline, seperti yang dijelaskan di bagian berikut.
Menambahkan sumber ke pipeline
Pipeline harus memiliki minimal satu sumber. Awalnya, pembuat tugas diisi dengan sumber kosong. Untuk mengonfigurasi sumber, lakukan langkah-langkah berikut:
Di kotak Nama sumber, masukkan nama untuk sumber atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.
Dalam daftar Source type, pilih jenis sumber data.
Bergantung pada jenis sumber, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih BigQuery, tentukan tabel yang akan dibaca.
Jika Anda memilih Pub/Sub, tentukan skema pesan. Masukkan nama dan jenis data setiap kolom yang ingin Anda baca dari pesan Pub/Sub. Pipeline menghapus kolom yang tidak ditentukan dalam skema.
Opsional: Untuk beberapa jenis sumber, Anda dapat mengklik Pratinjau data sumber untuk melihat pratinjau data sumber.
Untuk menambahkan sumber lain ke pipeline, klik Tambahkan sumber. Untuk menggabungkan data
dari beberapa sumber, tambahkan transformasi SQL
atau Join
ke pipeline Anda.
Menambahkan transformasi ke pipeline
Secara opsional, tambahkan satu atau beberapa transformasi ke pipeline. Anda dapat menggunakan transformasi berikut untuk memanipulasi, menggabungkan, atau menggabungkan data dari sumber dan transformasi lainnya:
Jenis transformasi | Deskripsi | Informasi Transformasi YAML Beam |
---|---|---|
Filter (Python) | Memfilter kumpulan data dengan ekspresi Python. | |
Transformasi SQL | Manipulasi data atau gabungkan beberapa input dengan pernyataan SQL. | |
Gabung | Menggabungkan beberapa input pada kolom yang sama. | |
Memetakan Kolom (Python) | Menambahkan kolom baru atau memetakan ulang seluruh kumpulan data dengan ekspresi dan fungsi Python. | |
Memetakan Kolom (SQL) | Menambahkan atau memetakan kolom data dengan ekspresi SQL. | |
Kelompokkan menurut |
Gabungkan data dengan fungsi seperti count() dan
sum() .
|
|
Transformasi YAML:
|
Gunakan transformasi apa pun dari Beam YAML SDK. Konfigurasi transformasi YAML: Berikan parameter konfigurasi untuk transformasi YAML sebagai peta YAML. Pasangan nilai kunci digunakan untuk mengisi bagian konfigurasi dari transformasi Beam YAML yang dihasilkan. Untuk parameter konfigurasi yang didukung untuk setiap jenis transformasi, lihat dokumentasi transformasi YAML Beam. Contoh parameter konfigurasi: Menggabungkangroup_by: combine: Gabungtype: equalities: fields: |
|
Explode | Memisahkan data dengan meratakan kolom array. |
Untuk menambahkan transformasi:
Klik Tambahkan transformasi.
Di kotak nama Transform, masukkan nama untuk transformasi atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.
Dalam daftar Transform type, pilih jenis transformasi.
Bergantung pada jenis transformasi, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih Filter (Python), masukkan ekspresi Python yang akan digunakan sebagai filter.
Pilih langkah input untuk transformasi. Langkah input adalah sumber atau transformasi yang output-nya memberikan input untuk transformasi ini.
Menambahkan sink ke pipeline
Pipeline harus memiliki minimal satu sink. Awalnya, pembuat tugas diisi dengan sink kosong. Untuk mengonfigurasi sink, lakukan langkah-langkah berikut:
Di kotak Sink name, masukkan nama untuk sink atau gunakan nama default. Nama akan muncul di grafik tugas saat Anda menjalankan tugas.
Dalam daftar Sink type, pilih jenis sink.
Bergantung pada jenis sink, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih sink BigQuery, pilih tabel BigQuery yang akan ditulis.
Pilih langkah input untuk sink. Langkah input adalah sumber atau transformasi yang output-nya memberikan input untuk transformasi ini.
Untuk menambahkan sink lain ke pipeline, klik Tambahkan sink.
Menjalankan pipeline
Untuk menjalankan pipeline dari pembuat tugas, lakukan langkah-langkah berikut:
Opsional: Tetapkan opsi tugas Dataflow. Untuk meluaskan bagian Opsi aliran data, klik panah peluas
.Klik Run job. Builder tugas membuka grafik tugas untuk tugas yang dikirim. Anda dapat menggunakan grafik tugas untuk memantau status tugas.
Memvalidasi pipeline sebelum diluncurkan
Untuk pipeline dengan konfigurasi yang kompleks, seperti filter Python dan ekspresi SQL, sebaiknya periksa konfigurasi pipeline untuk menemukan error sintaksis sebelum diluncurkan. Untuk memvalidasi sintaksis pipeline, lakukan langkah-langkah berikut:
- Klik Validasi untuk membuka Cloud Shell dan memulai layanan validasi.
- Klik Mulai Validasi.
- Jika ditemukan error selama validasi, tanda seru merah akan muncul.
- Perbaiki error yang terdeteksi dan verifikasi perbaikan dengan mengklik Validasi. Jika tidak ada error yang ditemukan, tanda centang hijau akan muncul.
Menjalankan dengan gcloud CLI
Anda juga dapat menjalankan pipeline YAML Beam menggunakan gcloud CLI. Untuk menjalankan pipeline pembuat tugas dengan gcloud CLI:
Klik Save YAML untuk membuka jendela Save YAML.
Lakukan salah satu tindakan berikut:
- Untuk menyimpan ke Cloud Storage, masukkan jalur Cloud Storage, lalu klik Simpan.
- Untuk mendownload file lokal, klik Download.
Jalankan perintah berikut di shell atau terminal:
gcloud dataflow yaml run my-job-builder-job --yaml-pipeline-file=YAML_FILE_PATH
Ganti
YAML_FILE_PATH
dengan jalur file YAML Anda, baik secara lokal maupun di Cloud Storage.
Langkah berikutnya
- Gunakan antarmuka pemantauan tugas Dataflow.
- Simpan dan muat definisi tugas YAML di pembuat tugas.
- Pelajari YAML Beam lebih lanjut.