Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
WorkflowTemplates API Dataproc menyediakan mekanisme yang fleksibel dan mudah digunakan untuk mengelola serta menjalankan alur kerja. Template Alur Kerja adalah konfigurasi alur kerja yang dapat digunakan kembali. Template ini menentukan grafik tugas beserta informasi mengenai tempat menjalankan tugas-tugas tersebut.
Jika alur kerja
menggunakan cluster terkelola, alur kerja tersebut akan membuat cluster, menjalankan tugas,
lalu menghapus cluster saat tugas selesai.
Jika alur kerja menggunakan
pemilih cluster, alur kerja tersebut akan menjalankan tugas di cluster yang ada dan dipilih.
Alur kerja sangat ideal untuk alur tugas yang kompleks. Anda dapat membuat dependensi tugas
sehingga tugas hanya dimulai setelah dependensinya berhasil diselesaikan.
Saat Anda membuat template alur kerja, Dataproc tidak membuat cluster atau mengirimkan tugas ke cluster.
Dataproc membuat atau memilih cluster dan menjalankan tugas alur kerja di cluster saat template alur kerja dibuat instance-nya.
Jenis Template Alur Kerja
Cluster terkelola
Template alur kerja dapat menentukan cluster terkelola. Alur kerja akan membuat cluster "sementara" untuk menjalankan tugas alur kerja, lalu menghapus cluster saat alur kerja selesai.
Pemilih cluster
Template alur kerja dapat menentukan cluster yang ada untuk menjalankan tugas alur kerja
dengan menentukan satu atau beberapa label pengguna
yang sebelumnya dilampirkan ke cluster. Alur kerja akan berjalan di
cluster yang cocok dengan semua label. Jika beberapa cluster cocok dengan semua label, Dataproc akan memilih cluster dengan memori YARN yang tersedia paling banyak untuk menjalankan semua tugas alur kerja. Di akhir alur kerja, Dataproc tidak menghapus cluster yang dipilih. Lihat
Menggunakan pemilih cluster dengan alur kerja
untuk mengetahui informasi selengkapnya.
Berparameter
Jika Anda akan menjalankan template alur kerja beberapa kali dengan nilai yang berbeda, gunakan
parameter untuk menghindari pengeditan template alur kerja untuk setiap kali menjalankan:
menentukan parameter dalam template, lalu
meneruskan nilai yang berbeda untuk parameter untuk setiap proses.
Otomatisasi tugas berulang. Alur kerja merangkum tugas dan konfigurasi cluster yang sering digunakan.
Model interaksi API transaksional kirim dan lupakan. Template Alur Kerja
menggantikan langkah-langkah yang terlibat dalam alur umum, yang mencakup:
membuat cluster
mengirimkan tugas
polling
menghapus cluster
Template Alur Kerja menggunakan satu token untuk melacak progres dari pembuatan cluster
hingga penghapusan, serta mengotomatiskan penanganan dan pemulihan error. Selain itu, alat ini menyederhanakan
integrasi Dataproc dengan alat lain, seperti fungsi Cloud Run
dan Cloud Composer.
Dukungan untuk cluster ephemeral dan yang berjalan lama. Kompleksitas umum yang terkait dengan menjalankan Apache Hadoop adalah penyesuaian dan penentuan ukuran cluster yang tepat.
Cluster ephemeral (terkelola) lebih mudah dikonfigurasi karena menjalankan satu workload. Pemilih cluster dapat digunakan dengan cluster yang berumur lebih lama untuk menjalankan workload yang sama berulang kali tanpa menimbulkan biaya yang diamortisasi untuk membuat dan menghapus cluster.
Keamanan IAM terperinci. Membuat cluster Dataproc dan mengirimkan tugas memerlukan izin IAM yang bersifat semua atau tidak sama sekali.
Template Alur Kerja menggunakan izin
workflowTemplates.instantiate
per template, dan tidak bergantung pada izin cluster atau tugas.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-08-22 UTC."],[[["\u003cp\u003eWorkflow Templates offer a reusable configuration for defining a series of jobs in a Directed Acyclic Graph (DAG), streamlining the management and execution of workflows.\u003c/p\u003e\n"],["\u003cp\u003eInstantiating a Workflow Template initiates a Workflow, which either creates an ephemeral cluster, runs the jobs, and then deletes the cluster, or utilizes a pre-existing cluster selected via labels.\u003c/p\u003e\n"],["\u003cp\u003eWorkflows are ideal for complex job sequences, allowing you to set job dependencies so that one job will only execute once the previous one has been completed successfully.\u003c/p\u003e\n"],["\u003cp\u003eWorkflow Templates can be parameterized to execute with varying values without the need to edit the template for each run, enhancing flexibility.\u003c/p\u003e\n"],["\u003cp\u003eWorkflow Templates simplify task automation and the integration of Dataproc with external tools by replacing manual cluster management steps with a single-token tracking process.\u003c/p\u003e\n"]]],[],null,["# Overview of Dataproc Workflow Templates\n\nThe Dataproc [WorkflowTemplates API](/dataproc/docs/reference/rest/v1/projects.regions.workflowTemplates) provides a\nflexible and easy-to-use mechanism for managing and executing workflows. A\nWorkflow Template is a reusable workflow configuration. It defines a graph of\njobs with information on where to run those jobs.\n\n**Key Points:**\n\n- [Instantiating a Workflow Template](/dataproc/docs/concepts/workflows/using-workflows#running_a_workflow) launches a Workflow. A Workflow is an operation that runs a [Directed Acyclic Graph (DAG)](https://en.wikipedia.org/wiki/Directed_acyclic_graph) of jobs on a cluster.\n - If the workflow uses a [managed cluster](#managed_cluster), it creates the cluster, runs the jobs, and then deletes the cluster when the jobs are finished.\n - If the workflow uses a [cluster selector](#cluster_selector), it runs jobs on a selected existing cluster.\n- Workflows are ideal for complex job flows. You can create job dependencies so that a job starts only after its dependencies complete successfully.\n- When you [create a workflow template](/dataproc/docs/concepts/workflows/using-workflows#creating_a_template) Dataproc does not create a cluster or submit jobs to a cluster. Dataproc creates or selects a cluster and runs workflow jobs on the cluster when a workflow template is **instantiated**.\n\nKinds of Workflow Templates\n---------------------------\n\n### Managed cluster\n\nA workflow template can specify a managed cluster. The workflow will create an\n\"ephemeral\" cluster to run workflow jobs, and then delete the cluster when the\nworkflow is finished.\n\n### Cluster selector\n\nA workflow template can specify an existing cluster on which to run workflow\njobs by specifying one or more [user labels](/dataproc/docs/concepts/labels)\npreviously attached to the cluster. The workflow will run on a\ncluster that matches all of the labels. If multiple clusters match\nall labels, Dataproc selects the cluster with the most\nYARN available memory to run all workflow jobs. At the end of workflow,\nDataproc does not delete the selected cluster. See\n[Use cluster selectors with workflows](/dataproc/docs/concepts/workflows/cluster-selectors)\nfor more information.\n| A workflow can select a specific cluster by matching the `goog-dataproc-cluster-name` label (see [Using Automatically Applied Labels](/dataproc/docs/concepts/workflows/cluster-selectors#using_automatically_applied_labels)).\n\n### Parameterized\n\nIf you will run a workflow template multiple times with different values, use\nparameters to avoid editing the workflow template for each run:\n\n1. define parameters in the template, then\n\n2. pass different values for the parameters for each run.\n\nSee\n[Parameterization of Workflow Templates](/dataproc/docs/concepts/workflows/workflow-parameters)\nfor more information.\n\n### Inline\n\nWorkflows can be instantiated inline using the `gcloud` command with\n[workflow template YAML files](/dataproc/docs/concepts/workflows/using-yamls#instantiate_a_workflow_using_a_yaml_file) or by calling the Dataproc\n[InstantiateInline](/dataproc/docs/reference/rest/v1/projects.regions.workflowTemplates/instantiateInline)\nAPI (see [Using inline Dataproc workflows](/dataproc/docs/concepts/workflows/inline-workflows)).\nInline workflows do not create or modify workflow template resources.\n| Inline workflows can be useful for rapid prototyping or automation.\n\nWorkflow Template use cases\n---------------------------\n\n- **Automation of repetitive tasks.** Workflows encapsulate frequently used\n cluster configurations and jobs.\n\n- **Transactional fire-and-forget API interaction model.** Workflow Templates\n replace the steps involved in a typical flow, which include:\n\n 1. creating the cluster\n 2. submitting jobs\n 3. polling\n 4. deleting the cluster\n\n Workflow Templates use a single token to track progress from cluster creation\n to deletion, and automate error handling and recovery. They also simplify the\n integration of Dataproc with other tools, such as Cloud Run functions\n and Cloud Composer.\n- **Support for ephemeral and long-lived clusters.** A common complexity\n associated with running Apache Hadoop is tuning and right-sizing clusters.\n Ephemeral (managed) clusters are easier to configure since they run a\n single workload. Cluster selectors can be used with\n longer-lived clusters to repeatedly execute the same workload\n without incurring the amortized cost of creating and deleting clusters.\n\n- **Granular IAM security.** Creating Dataproc clusters and\n submitting jobs require all-or-nothing IAM permissions.\n Workflow Templates use a per-template\n [workflowTemplates.instantiate](/dataproc/docs/concepts/iam/iam#workflow_templates_methods_required_permissions)\n permission, and do not depend on cluster or job permissions."]]