Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Nesta página, explicamos a orquestração de pipelines com o Cloud Composer e os gatilhos. O Cloud Data Fusion recomenda usar o Cloud Composer para
orquestrar pipelines. Se você precisar de uma maneira mais simples de gerenciar a orquestração, use
gatilhos.
Composer
Orquestrar pipelines com o Cloud Composer
A orquestração da execução do pipeline no Cloud Data Fusion com o Cloud Composer oferece os seguintes benefícios:
Gerenciamento centralizado de fluxos de trabalho:gerencie de maneira uniforme a execução de
vários pipelines do Cloud Data Fusion.
Gerenciamento de dependências:para garantir a ordem de execução adequada, defina
dependências entre pipelines.
Monitoramento e alertas:o Cloud Composer oferece recursos de monitoramento e alertas para falhas.
Integração com outros serviços:o Cloud Composer permite
orquestrar fluxos de trabalho que abrangem o Cloud Data Fusion e outros
Google Cloud serviços.
Para orquestrar pipelines do Cloud Data Fusion usando o Cloud Composer, siga este processo:
Configure o ambiente do Cloud Composer.
Crie um ambiente do Cloud Composer. Se você não tiver um, provisione o ambiente no projeto Google Cloud .
Esse ambiente é seu espaço de trabalho de orquestração.
Conceda permissões. Verifique se a conta de serviço do Cloud Composer tem as permissões necessárias para acessar o Cloud Data Fusion, como permissão para iniciar, interromper e listar pipelines.
Defina gráficos acíclicos dirigidos (DAGs) para orquestração.
Criar um DAG:no Cloud Composer, crie um DAG que
define o fluxo de trabalho de orquestração dos pipelines do Cloud Data Fusion.
Operadores do Cloud Data Fusion:use os operadores do Cloud Data Fusion do Cloud Composer no seu DAG. Esses operadores permitem interagir de maneira programática com o Cloud Data Fusion.
Operadores do Cloud Data Fusion
A orquestração de pipeline do Cloud Data Fusion tem os seguintes operadores:
CloudDataFusionStartPipelineOperator
Aciona a execução de um pipeline do Cloud Data Fusion pelo ID. Ele
tem os seguintes parâmetros:
ID do pipeline
Local (Google Cloud região)
Namespace do pipeline
Argumentos de ambiente de execução (opcional)
Aguardar a conclusão (opcional)
Tempo limite (opcional)
CloudDataFusionStopPipelineOperator
Permite interromper um pipeline do Cloud Data Fusion em execução.
CloudDataFusionDeletePipelineOperator
Exclui um pipeline do Cloud Data Fusion.
Criar o fluxo de trabalho do DAG
Ao criar o fluxo de trabalho do DAG, considere o seguinte:
Definição de dependências:use a estrutura DAG para definir dependências
entre tarefas. Por exemplo, você pode ter uma tarefa que aguarda a conclusão de um pipeline em um namespace antes de acionar outro em um namespace diferente.
Programação:programe a DAG para ser executada em intervalos específicos, como
diariamente ou a cada hora, ou configure para que ela seja acionada manualmente.
Os acionadores do Cloud Data Fusion permitem executar automaticamente um pipeline downstream após a conclusão (sucesso, falha ou qualquer condição especificada) de um ou mais pipelines upstream.
Os gatilhos são úteis para as seguintes tarefas:
Limpar os dados uma vez e disponibilizá-los para vários
pipelines downstream para consumo.
Compartilhar informações, como argumentos de ambiente de execução e configurações de plug-in, entre pipelines. Essa tarefa é chamada de configuração de
payload.
Ter um conjunto de pipelines dinâmicos que são executados usando os dados de hora, dia, semana ou mês, em vez de um pipeline estático que precisa ser atualizado para cada execução.
Por exemplo, você tem um conjunto de dados que contém todas as informações sobre os
envios da sua empresa. Com base nesses dados, você quer responder a várias perguntas de negócios. Para fazer isso, crie um pipeline que limpe os dados brutos
sobre remessas, chamado Limpeza de dados de remessas. Em seguida, crie um segundo pipeline, Fretes atrasados nos EUA, que lê os dados limpos e encontra os fretes nos EUA que atrasaram mais do que um limite especificado. O pipeline Fretes atrasados nos EUA pode ser acionado assim que o pipeline Limpeza de dados de fretes upstream for concluído.
Além disso, como o pipeline downstream consome a saída do pipeline upstream, é necessário especificar que, quando o pipeline downstream for executado usando esse acionador, ele também receberá o diretório de entrada a ser lido, que é o diretório em que o pipeline upstream gerou a saída. Esse
processo é chamado de transmitir a configuração do payload, que você define com
argumentos do ambiente de execução. Ele permite que você tenha um conjunto de pipelines dinâmicos que
são executados usando os dados da hora, do dia, da semana ou do mês, e não um pipeline estático,
que precisa ser atualizado para cada execução.
Para orquestrar pipelines com acionadores, siga este processo:
Crie pipelines upstream e downstream.
No Cloud Data Fusion Studio, projete e implante os pipelines que formam sua cadeia de orquestração.
Considere qual pipeline será ativado pela conclusão do próximo (a jusante) no seu fluxo de trabalho.
Opcional: transmita argumentos de execução para pipelines upstream.
Crie um gatilho de entrada no pipeline downstream.
No Cloud Data Fusion Studio, acesse a página Lista. Na guia Implantação, clique no nome do pipeline downstream. A visualização "Implantar" desse pipeline é exibida.
No lado central esquerdo da página, clique em Acionadores de entrada.
Uma lista de pipelines disponíveis vai aparecer.
Clique no pipeline upstream. Selecione um ou mais estados de conclusão
do pipeline upstream (Bem-sucedidos, Falhas ou Paradas)
como a condição para quando o pipeline downstream será executado.
Se você quiser que o pipeline upstream compartilhe informações (chamada de
configuração de payload) com o pipeline downstream, clique em
Configuração do gatilho e siga as etapas para
transmitir a configuração do payload como argumentos de tempo de execução.
Caso contrário, clique em Ativar gatilho.
Teste o acionador.
Inicie uma execução do pipeline upstream.
Se o acionador estiver configurado corretamente, o pipeline downstream será executado automaticamente após a conclusão dos pipelines upstream, com base na condição configurada.
Transmitir a configuração do payload como argumentos de ambiente de execução
A configuração de payload permite o compartilhamento de informações do pipeline upstream
para o pipeline downstream. Essas informações podem ser, por exemplo, o diretório de saída, o formato de dados ou o dia em que o pipeline foi executado. Essas informações são usadas pelo pipeline downstream para decisões como determinar o conjunto de dados certo para ler.
Para transmitir informações do pipeline upstream para o pipeline downstream,
defina os argumentos de tempo de execução do pipeline downstream com os valores dos
argumentos de ambiente de execução ou a configuração de qualquer plug-in no
pipeline upstream.
Sempre que o pipeline downstream é acionado e executado, a configuração do payload
é definida usando os argumentos do ambiente de execução da execução específica do
pipeline upstream que acionou o pipeline downstream.
Para transmitir a configuração do payload como argumentos do ambiente de execução, siga estas etapas:
Continue de onde você parou na seção Como criar um gatilho de entrada,
depois de clicar em Configuração do gatilho, todos os argumentos de ambiente de execução que você
definiu anteriormente do pipeline upstream vão aparecer. Escolha os
argumentos de ambiente de execução que serão transmitidos do pipeline upstream para o
pipeline downstream quando o acionador for executado.
Clique na guia Configuração do plug-in para ver uma lista do que será transmitido do pipeline upstream para o pipeline downstream quando for acionado.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-04 UTC."],[[["\u003cp\u003eCloud Composer can orchestrate multiple Cloud Data Fusion pipelines, offering centralized workflow and dependency management, monitoring, alerting, and integration with other Google Cloud services.\u003c/p\u003e\n"],["\u003cp\u003eCloud Composer uses Directed Acyclic Graphs (DAGs) and Cloud Data Fusion Operators to define and manage pipeline orchestration, including starting, stopping, and deleting pipelines.\u003c/p\u003e\n"],["\u003cp\u003eTriggers in Cloud Data Fusion allow automatic execution of downstream pipelines upon completion of upstream pipelines, based on success, failure, or other conditions.\u003c/p\u003e\n"],["\u003cp\u003eTriggers facilitate dynamic pipelines by enabling the sharing of runtime arguments and plugin configurations (payload configuration) between upstream and downstream pipelines.\u003c/p\u003e\n"],["\u003cp\u003eUsing payload configuration with triggers, the downstream pipeline can receive information, such as output directory and data format, from the upstream pipeline.\u003c/p\u003e\n"]]],[],null,["# Orchestrate pipelines\n\nThis page explains pipeline orchestration with Cloud Composer and\ntriggers. Cloud Data Fusion recommends using Cloud Composer to\norchestrate pipelines. If you require a simpler way to manage orchestration, use\ntriggers. \n\n### Composer\n\nOrchestrate pipelines with Cloud Composer\n-----------------------------------------\n\nOrchestrating pipeline execution in Cloud Data Fusion with\nCloud Composer provides following benefits:\n\n- **Centralized workflow management:** uniformly manage the execution of multiple Cloud Data Fusion pipelines.\n- **Dependency management:** to ensure proper execution order, define dependencies between pipelines.\n- **Monitoring and alerting:** Cloud Composer provides monitoring capabilities and alerts for failures.\n- **Integration with other services:** Cloud Composer lets you orchestrate workflows that span across Cloud Data Fusion and other Google Cloud services.\n\nTo orchestrate Cloud Data Fusion pipelines using\nCloud Composer, follow this process:\n\n1. **Set up the Cloud Composer environment.**\n\n - **Create a Cloud Composer environment.** If you don't have one, provision the environment in your Google Cloud project. This environment is your orchestration workspace.\n - **Give permissions.** Ensure the Cloud Composer service account has the necessary permissions to access Cloud Data Fusion (such as permission to start, stop, and list pipelines).\n2. **Define Directed Acyclic Graphs (DAG) for orchestration.**\n\n - **Create a DAG:** In Cloud Composer, create a DAG that defines the orchestration workflow for your Cloud Data Fusion pipelines.\n - **Cloud Data Fusion Operators:** Use Cloud Composer's Cloud Data Fusion Operators within your DAG. These operators let you interact programmatically with Cloud Data Fusion.\n\n### Cloud Data Fusion operators\n\nCloud Data Fusion pipeline orchestration has the following operators:\n\n`CloudDataFusionStartPipelineOperator`\n\n: Triggers the execution of a Cloud Data Fusion pipeline by its ID. It\n has the following parameters:\n\n - Pipeline ID\n - Location (Google Cloud region)\n - Pipeline namespace\n - Runtime arguments (optional)\n - Wait for completion (optional)\n - Timeout (optional)\n\n`CloudDataFusionStopPipelineOperator`\n\n: Lets you stop a running Cloud Data Fusion pipeline.\n\n`CloudDataFusionDeletePipelineOperator`\n\n: Deletes a Cloud Data Fusion pipeline.\n\n### Build the DAG workflow\n\nWhen you build the DAG workflow, consider the following:\n\n- **Defining dependencies:** Use the DAG structure to define dependencies between tasks. For example, you might have a task that waits for a pipeline in one namespace to complete successfully before triggering another pipeline in a different namespace.\n- **Scheduling:** Schedule the DAG to run at specific intervals, such as daily or hourly, or set it to be triggered manually.\n\nFor more information, see the\n[Cloud Composer overview](/composer/docs/concepts/overview).\n\n### Triggers\n\nOrchestrate pipelines with triggers\n-----------------------------------\n\nCloud Data Fusion triggers let you automatically execute a downstream\npipeline upon the completion (success, failure, or any specified condition)\nof one or more upstream pipelines.\n\nTriggers are useful for the following tasks:\n\n- Cleaning your data once, and then making it available to multiple downstream pipelines for consumption.\n- Sharing information, such as runtime arguments and plugin configurations, between pipelines. This task is called *payload\n configuration*.\n- Having a set of dynamic pipelines that run using the data from the hour, day, week, or month, instead of a static pipeline that must be updated for every run.\n\nFor example, you have a dataset that contains all information about your\ncompany's shipments. Based on this data, you want to answer several business\nquestions. To do this, you create one pipeline that cleanses the raw data\nabout shipments, called *Shipments Data Cleaning* . Then you create a second\npipeline, *Delayed Shipments USA* , which reads the cleansed data and finds\nthe shipments within the USA that were delayed by more than a specified\nthreshold. The *Delayed Shipments USA* pipeline can be triggered as soon as\nthe upstream *Shipments Data Cleaning* pipeline successfully completes.\n\nAdditionally, since the downstream pipeline consumes the output of the\nupstream pipeline, you must specify that when the downstream pipeline runs\nusing this trigger, it also receives the input directory to read from (which\nis the directory where the upstream pipeline generated its output). This\nprocess is called *passing payload configuration*, which you define with\nruntime arguments. It lets you have a set of dynamic pipelines that\nrun using the data of the hour, day, week, or month (not a static pipeline,\nwhich must be updated for every run).\n| **Note:** Don't trigger upgrades with Terraform. For more information, see the [limitations for Cloud Data Fusion upgrades](/data-fusion/docs/how-to/upgrading#limitations).\n\nTo orchestrate pipelines with triggers, follow this process:\n\n1. **Create upstream and downstream pipelines.**\n\n - In the Cloud Data Fusion Studio, design and deploy the pipelines that form your orchestration chain.\n - Consider which pipeline's completion will activate the next pipeline (downstream) in your workflow.\n2. **Optional: pass runtime arguments for upstream pipelines.**\n\n - If you need to [pass payload configuration as runtime arguments](#pass-payload-configs) between pipelines, configure runtime arguments. These arguments can be passed to the downstream pipeline during execution.\n3. **Create an inbound trigger on the downstream pipeline.**\n\n - In the Cloud Data Fusion Studio, go to the **List** page. In the **Deployed** tab, click the name of the downstream pipeline. The Deploy view for that pipeline appears.\n - On the middle left side of the page, click **Inbound triggers**. A list of available pipelines appears.\n - Click the upstream pipeline. Select one or more of the upstream pipeline completion states (**Succeeds** , **Fails** , or **Stops**) as the condition for when the downstream pipeline should run.\n - If you want the upstream pipeline to share information (called *payload configuration* ) with the downstream pipeline, click **Trigger config** and then follow the steps to [pass payload configuration as runtime arguments](#pass-payload-configs). Otherwise, click **Enable trigger**.\n4. **Test the trigger.**\n\n - Initiate a run of the upstream pipeline.\n - If the trigger is configured correctly, the downstream pipeline automatically executes upon completion of the upstream pipelines, based on your configured condition.\n\n### Pass payload configuration as runtime arguments\n\nPayload configuration allows sharing of information from the upstream\npipeline to the downstream pipeline. This information can be, for example,\nthe output directory, the data format, or the day the pipeline was run. This\ninformation is then used by the downstream pipeline for decisions such as\ndetermining the right dataset to read from.\n\nTo pass information from the upstream pipeline to the downstream pipeline,\nyou set the runtime arguments of the downstream pipeline with the values of\neither the runtime arguments or the configuration of any plugin in the\nupstream pipeline.\n\nWhenever the downstream pipeline triggers and runs, its payload\nconfiguration is set using the runtime arguments of the particular run of\nthe upstream pipeline that triggered the downstream pipeline.\n\nTo pass payload configuration as runtime arguments, follow these steps:\n\n1. Picking up where you left off in the [Creating an inbound trigger](/data-fusion/docs/how-to/using-triggers#create_inbound_trigger), after clicking **Trigger config** , any runtime arguments you [previously set](/data-fusion/docs/how-to/using-triggers#before_you_begin) for your upstream pipeline will appear. Choose the runtime arguments to pass from the upstream pipeline to the downstream pipeline when this trigger executes.\n2. Click the **Plugin config** tab to see a list of what will be passed from your upstream pipeline to your downstream pipeline when it is triggered.\n3. Click **Configure and Enable Trigger**."]]