Halaman ini diterjemahkan oleh Cloud Translation API.

Membuat tugas kustom dengan pembuat tugas

Pembangun tugas memungkinkan Anda membuat tugas batch dan streaming Dataflow kustom. Anda juga dapat menyimpan tugas builder tugas sebagai file Apache Beam YAML untuk dibagikan dan digunakan kembali.

Membuat pipeline baru

Untuk membuat pipeline baru di pembuat tugas, ikuti langkah-langkah berikut:

Buka halaman Jobs di konsol Google Cloud .

Buka Tugas
Klik Buat tugas dari builder.
Untuk Job name, masukkan nama untuk tugas.
Pilih Batch atau Streaming.
Jika Anda memilih Streaming, pilih mode tampilan jendela. Kemudian, masukkan spesifikasi untuk jendela, sebagai berikut:
- Periode tetap: Masukkan ukuran periode, dalam detik.
- Jendela geser: Masukkan ukuran jendela dan periode jendela, dalam detik.
- Interval sesi: Masukkan jeda sesi, dalam detik.
Untuk mengetahui informasi selengkapnya tentang windowing, lihat Fungsi jendela dan windowing.

Selanjutnya, tambahkan sumber, transformasi, dan tujuan ke pipeline, seperti yang dijelaskan di bagian berikut.

Menambahkan sumber ke pipeline

Pipeline harus memiliki minimal satu sumber. Awalnya, pembuat tugas diisi dengan sumber kosong. Untuk mengonfigurasi sumber, lakukan langkah-langkah berikut:

Di kotak Nama sumber, masukkan nama untuk sumber atau gunakan nama default. Nama ini akan muncul di grafik tugas saat Anda menjalankan tugas.
Dalam daftar Source type, pilih jenis sumber data.
Bergantung pada jenis sumber, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih BigQuery, tentukan tabel yang akan dibaca.

Jika Anda memilih Pub/Sub, tentukan skema pesan. Masukkan nama dan jenis data setiap kolom yang ingin Anda baca dari pesan Pub/Sub. Pipeline akan menghapus kolom apa pun yang tidak ditentukan dalam skema.
Opsional: Untuk beberapa jenis sumber, Anda dapat mengklik Pratinjau data sumber untuk melihat pratinjau data sumber.

Untuk menambahkan sumber lain ke pipeline, klik Tambahkan sumber. Untuk menggabungkan data dari beberapa sumber, tambahkan transformasi SQL atau Join ke pipeline Anda.

Menambahkan transformasi ke pipeline

Jika ingin, tambahkan satu atau beberapa transformasi ke pipeline. Anda dapat menggunakan transformasi berikut untuk memanipulasi, menggabungkan, atau menggabungkan data dari sumber dan transformasi lainnya:

Jenis transformasi	Deskripsi	Informasi Transformasi YAML Beam
Filter (Python)	Memfilter kumpulan data dengan ekspresi Python.	Pemfilteran (Python) Pemfilteran
Transformasi SQL	Memanipulasi catatan atau menggabungkan beberapa input dengan pernyataan SQL.	Transformasi bernama Sql
Memetakan Kolom (Python)	Tambahkan kolom baru atau petakan ulang seluruh kumpulan data dengan ekspresi dan fungsi Python.	Fungsi pemetaan MapToFields
Memetakan Kolom (SQL)	Tambahkan atau petakan kolom rekaman dengan ekspresi SQL.	Fungsi pemetaan MapToFields
Transformasi YAML: AssertEqual AssignTimestamps Gabungkan Meledak Filter Ratakan Gabung LogForTesting MLTransform MapToFields PyTransform WindowInfo	Gunakan transformasi apa pun dari Beam YAML SDK. Konfigurasi transformasi YAML: Berikan parameter konfigurasi untuk transformasi YAML sebagai peta YAML. Pasangan nilai kunci digunakan untuk mengisi bagian config dari transformasi Beam YAML yang dihasilkan. Untuk mengetahui parameter konfigurasi yang didukung untuk setiap jenis transformasi, lihat dokumentasi transformasi YAML Beam. Contoh parameter konfigurasi: Gabungkan group_by: combine: Gabung type: equalities: fields:	Indeks Transformasi YAML Beam
Log	Mencatat rekaman log ke log pekerja tugas.	LogForTesting
Kelompokkan menurut	Gabungkan data dengan fungsi seperti `count()` dan `sum()`.	Kelompokkan Berdasarkan
Gabung	Gabungkan beberapa input pada kolom yang sama.	Beam YAML Join Gabung
Meledak	Membagi record dengan meratakan kolom array.	Flatmap Meledak

Untuk menambahkan transformasi:

Klik Tambahkan transformasi.
Di kotak nama Transform, masukkan nama untuk transformasi atau gunakan nama default. Nama ini akan muncul di grafik tugas saat Anda menjalankan tugas.
Dalam daftar Jenis transformasi, pilih jenis transformasi.
Bergantung pada jenis transformasi, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih Filter (Python), masukkan ekspresi Python untuk digunakan sebagai filter.
Pilih langkah input untuk transformasi. Langkah input adalah sumber atau transformasi yang outputnya memberikan input untuk transformasi ini.

Catatan: Transformasi SQL dan Join dapat memiliki beberapa langkah input.

Menambahkan sink ke pipeline

Pipeline harus memiliki minimal satu tujuan. Awalnya, pembuat tugas diisi dengan sink kosong. Untuk mengonfigurasi sink, lakukan langkah-langkah berikut:

Di kotak Sink name, masukkan nama untuk sink atau gunakan nama default. Nama ini akan muncul di grafik tugas saat Anda menjalankan tugas.
Dalam daftar Sink type, pilih jenis sink.
Bergantung pada jenis tujuan, berikan informasi konfigurasi tambahan. Misalnya, jika Anda memilih sink BigQuery, pilih tabel BigQuery yang akan ditulisi.
Pilih langkah input untuk sink. Langkah input adalah sumber atau transformasi yang outputnya memberikan input untuk transformasi ini.
Untuk menambahkan tujuan lain ke pipeline, klik Tambahkan tujuan.

Menjalankan pipeline

Untuk menjalankan pipeline dari pembuat tugas, lakukan langkah-langkah berikut:

Opsional: Tetapkan opsi tugas Dataflow. Untuk meluaskan bagian Dataflow options, klik panah peluas .
Klik Run job. Pembangun tugas membuka grafik tugas untuk tugas yang dikirimkan. Anda dapat menggunakan grafik tugas untuk memantau status tugas.

Memvalidasi pipeline sebelum meluncurkan

Untuk pipeline dengan konfigurasi yang kompleks, seperti filter Python dan ekspresi SQL, sebaiknya periksa konfigurasi pipeline untuk mengetahui apakah ada error sintaksis sebelum diluncurkan. Untuk memvalidasi sintaksis pipeline, lakukan langkah-langkah berikut:

Klik Validate untuk membuka Cloud Shell dan memulai layanan validasi.
Klik Mulai Validasi.
Jika error ditemukan selama validasi, tanda seru merah akan muncul.
Perbaiki error yang terdeteksi dan verifikasi perbaikan dengan mengklik Validasi. Jika tidak ada error, tanda centang hijau akan muncul.

Menjalankan dengan gcloud CLI

Anda juga dapat menjalankan pipeline YAML Beam menggunakan gcloud CLI. Untuk menjalankan pipeline pembuat tugas dengan gcloud CLI:

Klik Simpan YAML untuk membuka jendela Simpan YAML.
Lakukan salah satu tindakan berikut:
- Untuk menyimpan ke Cloud Storage, masukkan jalur Cloud Storage, lalu klik Simpan.
- Untuk mendownload file lokal, klik Download.
Jalankan perintah berikut di shell atau terminal Anda:
```
  gcloud dataflow yaml run my-job-builder-job --yaml-pipeline-file=YAML_FILE_PATH
```
Ganti YAML_FILE_PATH dengan jalur file YAML Anda, baik secara lokal maupun di Cloud Storage.

Langkah berikutnya

Gunakan antarmuka pemantauan tugas Dataflow.
Simpan dan muat definisi tugas YAML di pembuat tugas.
Pelajari lebih lanjut YAML Beam.