Pembangun tugas memungkinkan Anda membuat tugas batch dan streaming Dataflow kustom. Anda juga dapat menyimpan tugas builder tugas sebagai file Apache Beam YAML untuk dibagikan dan digunakan kembali.
Membuat pipeline baru
Untuk membuat pipeline baru di pembuat tugas, ikuti langkah-langkah berikut:
Buka halaman Jobs di konsol Google Cloud .
Klik
Buat tugas dari builder.Untuk Job name, masukkan nama untuk tugas.
Pilih Batch atau Streaming.
Jika Anda memilih Streaming, pilih mode tampilan jendela. Kemudian, masukkan spesifikasi untuk jendela, sebagai berikut:
- Periode tetap: Masukkan ukuran periode, dalam detik.
- Jendela geser: Masukkan ukuran jendela dan periode jendela, dalam detik.
- Interval sesi: Masukkan jeda sesi, dalam detik.
Untuk mengetahui informasi selengkapnya tentang windowing, lihat Fungsi jendela dan windowing.
Selanjutnya, tambahkan sumber, transformasi, dan tujuan ke pipeline, seperti yang dijelaskan di bagian berikut.
Menambahkan sumber ke pipeline
Pipeline harus memiliki minimal satu sumber. Awalnya, pembuat tugas diisi dengan sumber kosong. Untuk mengonfigurasi sumber, lakukan langkah-langkah berikut:
Di kotak Nama sumber, masukkan nama untuk sumber atau gunakan nama default. Nama ini akan muncul di grafik tugas saat Anda menjalankan tugas.
Dalam daftar Source type, pilih jenis sumber data.
Bergantung pada jenis sumber, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih BigQuery, tentukan tabel yang akan dibaca.
Jika Anda memilih Pub/Sub, tentukan skema pesan. Masukkan nama dan jenis data setiap kolom yang ingin Anda baca dari pesan Pub/Sub. Pipeline akan menghapus kolom apa pun yang tidak ditentukan dalam skema.
Opsional: Untuk beberapa jenis sumber, Anda dapat mengklik Pratinjau data sumber untuk melihat pratinjau data sumber.
Untuk menambahkan sumber lain ke pipeline, klik Tambahkan sumber. Untuk menggabungkan data dari beberapa sumber, tambahkan transformasi SQL
atau Join
ke pipeline Anda.
Menambahkan transformasi ke pipeline
Jika ingin, tambahkan satu atau beberapa transformasi ke pipeline. Anda dapat menggunakan transformasi berikut untuk memanipulasi, menggabungkan, atau menggabungkan data dari sumber dan transformasi lainnya:
Jenis transformasi | Deskripsi | Informasi Transformasi YAML Beam |
---|---|---|
Filter (Python) | Memfilter kumpulan data dengan ekspresi Python. | |
Transformasi SQL | Memanipulasi catatan atau menggabungkan beberapa input dengan pernyataan SQL. | |
Memetakan Kolom (Python) | Tambahkan kolom baru atau petakan ulang seluruh kumpulan data dengan ekspresi dan fungsi Python. | |
Memetakan Kolom (SQL) | Tambahkan atau petakan kolom rekaman dengan ekspresi SQL. | |
Transformasi YAML:
|
Gunakan transformasi apa pun dari Beam YAML SDK. Konfigurasi transformasi YAML: Berikan parameter konfigurasi untuk transformasi YAML sebagai peta YAML. Pasangan nilai kunci digunakan untuk mengisi bagian config dari transformasi Beam YAML yang dihasilkan. Untuk mengetahui parameter konfigurasi yang didukung untuk setiap jenis transformasi, lihat dokumentasi transformasi YAML Beam. Contoh parameter konfigurasi: Gabungkangroup_by: combine: Gabungtype: equalities: fields: |
|
Log | Mencatat rekaman log ke log pekerja tugas. | |
Kelompokkan menurut |
Gabungkan data dengan fungsi seperti count() dan
sum() .
|
|
Gabung | Gabungkan beberapa input pada kolom yang sama. | |
Meledak | Membagi record dengan meratakan kolom array. |
Untuk menambahkan transformasi:
Klik Tambahkan transformasi.
Di kotak nama Transform, masukkan nama untuk transformasi atau gunakan nama default. Nama ini akan muncul di grafik tugas saat Anda menjalankan tugas.
Dalam daftar Jenis transformasi, pilih jenis transformasi.
Bergantung pada jenis transformasi, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih Filter (Python), masukkan ekspresi Python untuk digunakan sebagai filter.
Pilih langkah input untuk transformasi. Langkah input adalah sumber atau transformasi yang outputnya memberikan input untuk transformasi ini.
Menambahkan sink ke pipeline
Pipeline harus memiliki minimal satu tujuan. Awalnya, pembuat tugas diisi dengan sink kosong. Untuk mengonfigurasi sink, lakukan langkah-langkah berikut:
Di kotak Sink name, masukkan nama untuk sink atau gunakan nama default. Nama ini akan muncul di grafik tugas saat Anda menjalankan tugas.
Dalam daftar Sink type, pilih jenis sink.
Bergantung pada jenis tujuan, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih sink BigQuery, pilih tabel BigQuery yang akan ditulisi.
Pilih langkah input untuk sink. Langkah input adalah sumber atau transformasi yang outputnya memberikan input untuk transformasi ini.
Untuk menambahkan tujuan lain ke pipeline, klik Tambahkan tujuan.
Menjalankan pipeline
Untuk menjalankan pipeline dari pembuat tugas, lakukan langkah-langkah berikut:
Opsional: Tetapkan opsi tugas Dataflow. Untuk meluaskan bagian Dataflow options, klik panah peluas
.Klik Run job. Pembangun tugas membuka grafik tugas untuk tugas yang dikirimkan. Anda dapat menggunakan grafik tugas untuk memantau status tugas.
Memvalidasi pipeline sebelum meluncurkan
Untuk pipeline dengan konfigurasi yang kompleks, seperti filter Python dan ekspresi SQL, sebaiknya periksa konfigurasi pipeline untuk mengetahui apakah ada error sintaksis sebelum diluncurkan. Untuk memvalidasi sintaksis pipeline, lakukan langkah-langkah berikut:
- Klik Validate untuk membuka Cloud Shell dan memulai layanan validasi.
- Klik Mulai Validasi.
- Jika error ditemukan selama validasi, tanda seru merah akan muncul.
- Perbaiki error yang terdeteksi dan verifikasi perbaikan dengan mengklik Validasi. Jika tidak ada error, tanda centang hijau akan muncul.
Menjalankan dengan gcloud CLI
Anda juga dapat menjalankan pipeline YAML Beam menggunakan gcloud CLI. Untuk menjalankan pipeline pembuat tugas dengan gcloud CLI:
Klik Simpan YAML untuk membuka jendela Simpan YAML.
Lakukan salah satu tindakan berikut:
- Untuk menyimpan ke Cloud Storage, masukkan jalur Cloud Storage, lalu klik Simpan.
- Untuk mendownload file lokal, klik Download.
Jalankan perintah berikut di shell atau terminal Anda:
gcloud dataflow yaml run my-job-builder-job --yaml-pipeline-file=YAML_FILE_PATH
Ganti
YAML_FILE_PATH
dengan jalur file YAML Anda, baik secara lokal maupun di Cloud Storage.
Langkah berikutnya
- Gunakan antarmuka pemantauan tugas Dataflow.
- Simpan dan muat definisi tugas YAML di pembuat tugas.
- Pelajari lebih lanjut YAML Beam.