WorkflowTemplates API Dataproc menyediakan mekanisme yang fleksibel dan mudah digunakan untuk mengelola serta menjalankan alur kerja. Template Alur Kerja adalah konfigurasi alur kerja yang dapat digunakan kembali. Template ini menentukan grafik tugas beserta informasi mengenai tempat menjalankan tugas-tugas tersebut.
Poin Utama:
- Membuat instance Template Alur Kerja
akan meluncurkan Alur Kerja. Alur kerja adalah operasi yang menjalankan
Directed Acyclic Graph (DAG)
tugas pada suatu cluster.
- Jika alur kerja menggunakan cluster terkelola, alur kerja tersebut akan membuat cluster, menjalankan tugas, lalu menghapus cluster saat tugas selesai.
- Jika alur kerja menggunakan pemilih cluster, alur kerja tersebut akan menjalankan tugas di cluster yang ada dan dipilih.
- Alur kerja sangat ideal untuk alur tugas yang kompleks. Anda dapat membuat dependensi tugas sehingga tugas hanya dimulai setelah dependensinya berhasil diselesaikan.
- Saat Anda membuat template alur kerja, Dataproc tidak membuat cluster atau mengirimkan tugas ke cluster. Dataproc membuat atau memilih cluster dan menjalankan tugas alur kerja di cluster saat template alur kerja dibuat instance-nya.
Jenis Template Alur Kerja
Cluster terkelola
Template alur kerja dapat menentukan cluster terkelola. Alur kerja akan membuat cluster "sementara" untuk menjalankan tugas alur kerja, lalu menghapus cluster saat alur kerja selesai.
Pemilih cluster
Template alur kerja dapat menentukan cluster yang ada untuk menjalankan tugas alur kerja dengan menentukan satu atau beberapa label pengguna yang sebelumnya dilampirkan ke cluster. Alur kerja akan berjalan di cluster yang cocok dengan semua label. Jika beberapa cluster cocok dengan semua label, Dataproc akan memilih cluster dengan memori YARN yang tersedia paling banyak untuk menjalankan semua tugas alur kerja. Di akhir alur kerja, Dataproc tidak menghapus cluster yang dipilih. Lihat Menggunakan pemilih cluster dengan alur kerja untuk mengetahui informasi selengkapnya.
Berparameter
Jika Anda akan menjalankan template alur kerja beberapa kali dengan nilai yang berbeda, gunakan parameter untuk menghindari pengeditan template alur kerja untuk setiap kali menjalankan:
menentukan parameter dalam template, lalu
meneruskan nilai yang berbeda untuk parameter untuk setiap proses.
Lihat Parameterisasi Template Alur Kerja untuk mengetahui informasi selengkapnya.
Inline
Alur kerja dapat di-instantiate secara inline menggunakan perintah gcloud
dengan
file YAML template alur kerja atau dengan memanggil Dataproc
InstantiateInline
API (lihat Menggunakan alur kerja Dataproc inline).
Alur kerja inline tidak membuat atau mengubah resource template alur kerja.
Kasus penggunaan Template Alur Kerja
Otomatisasi tugas berulang. Alur kerja merangkum tugas dan konfigurasi cluster yang sering digunakan.
Model interaksi API transaksional kirim dan lupakan. Template Alur Kerja menggantikan langkah-langkah yang terlibat dalam alur umum, yang mencakup:
- membuat cluster
- mengirimkan tugas
- polling
- menghapus cluster
Template Alur Kerja menggunakan satu token untuk melacak progres dari pembuatan cluster hingga penghapusan, serta mengotomatiskan penanganan dan pemulihan error. Selain itu, alat ini menyederhanakan integrasi Dataproc dengan alat lain, seperti fungsi Cloud Run dan Cloud Composer.
Dukungan untuk cluster ephemeral dan yang berjalan lama. Kompleksitas umum yang terkait dengan menjalankan Apache Hadoop adalah penyesuaian dan penentuan ukuran cluster yang tepat. Cluster ephemeral (terkelola) lebih mudah dikonfigurasi karena menjalankan satu workload. Pemilih cluster dapat digunakan dengan cluster yang berumur lebih lama untuk menjalankan workload yang sama berulang kali tanpa menimbulkan biaya yang diamortisasi untuk membuat dan menghapus cluster.
Keamanan IAM terperinci. Membuat cluster Dataproc dan mengirimkan tugas memerlukan izin IAM yang bersifat semua atau tidak sama sekali. Template Alur Kerja menggunakan izin workflowTemplates.instantiate per template, dan tidak bergantung pada izin cluster atau tugas.