Gerenciar pipelines

Este documento descreve como gerenciar pipelines do BigQuery, incluindo como programar e excluir pipelines.

Este documento também descreve como visualizar e gerenciar metadados do pipeline no Dataplex.

Os pipelines são gerados pelo Dataform.

Antes de começar

  1. Crie um pipeline do BigQuery.
  2. Para gerenciar metadados do pipeline no Dataplex, verifique se a API Dataplex está ativada no seu projeto do Google Cloud.

Funções exigidas

Para conseguir as permissões necessárias para gerenciar pipelines, peça ao administrador para conceder a você os seguintes papéis do IAM:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Para gerenciar metadados de pipeline no Dataplex, verifique se você tem as funções do Dataplex necessárias.

Para mais informações sobre o IAM do Dataform, consulte Controlar o acesso com o IAM.

Conferir todos os pipelines

Para conferir uma lista de todos os pipelines no seu projeto, faça o seguinte:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, clique em e expanda Pipelines.

Conferir execuções manuais anteriores

Para conferir as execuções manuais anteriores de um pipeline selecionado, siga estas etapas:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique em Execuções.

  4. Opcional: para atualizar a lista de execuções anteriores, clique em Atualizar.

Configurar alertas para execuções de pipeline com falha

Cada pipeline tem um ID de repositório do Dataform correspondente. Cada execução do pipeline do BigQuery é registrada no Cloud Logging usando o ID do repositório do Dataform correspondente. Você pode usar o Cloud Monitoring para observar tendências nos registros do Cloud Logging para execuções de pipeline do BigQuery e receber notificações quando as condições descritas ocorrerem.

Para receber alertas quando uma execução de pipeline do BigQuery falhar, crie uma política de alerta baseada em registros para o ID de repositório do Dataform correspondente. Para instruções, consulte Configurar alertas para invocações de fluxo de trabalho com falha.

Para encontrar o ID do repositório do Dataform do seu pipeline, faça o seguinte:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique em Configurações.

    O ID do repositório do Dataform do seu pipeline é exibido na parte de baixo da guia Configurações.

Excluir um pipeline

Para excluir um pipeline permanentemente, siga estas etapas:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, abra o projeto e a pasta Pipelines. Encontre o pipeline que você quer excluir.

  3. Clique em Ver ações ao lado do pipeline e, em seguida, em Excluir.

  4. Clique em Excluir.

Gerenciar metadados no Dataplex

O Dataplex permite armazenar e gerenciar metadados de pipelines. Os pipelines estão disponíveis no Dataplex por padrão, sem configuração extra.

É possível usar o Dataplex para gerenciar pipelines em todos os locais de pipeline. O gerenciamento de pipelines no Dataplex está sujeito às cotas e limites do Dataplex e aos preços do Dataplex.

O Dataplex recupera automaticamente os seguintes metadados dos pipelines:

  • Nome do recurso de dados
  • Pai do recurso de dados
  • Local do recurso de dados
  • Tipo de recurso de dados
  • Projeto correspondente do Google Cloud

O Dataplex registra pipelines como entradas com os seguintes valores de entrada:

Grupo de entrada do sistema
O grupo de entrada do sistema para pipelines é @dataform. Para conferir os detalhes das entradas de pipeline no Dataplex, é necessário acessar o grupo de entrada do sistema dataform. Para conferir instruções sobre como consultar uma lista de todas as entradas em um grupo, consulte Consultar detalhes de um grupo de entrada na documentação do Dataplex.
Tipo de entrada do sistema
O tipo de entrada do sistema para pipelines é dataform-code-asset. Para conferir os detalhes dos pipelines, você precisa acessar o tipo de entrada do sistema dataform-code-asset, filtrar os resultados com um filtro baseado em aspectos e definir o campo type dentro do aspecto dataform-code-asset como WORKFLOW. Em seguida, selecione uma entrada do pipeline escolhido. Para instruções sobre como conferir os detalhes de um tipo de entrada selecionado, consulte Conferir os detalhes de um tipo de entrada na documentação do Dataplex. Para instruções sobre como conferir os detalhes de uma entrada selecionada, consulte Conferir os detalhes de uma entrada na documentação do Dataplex.
Tipo de aspecto do sistema
O tipo de aspecto do sistema para pipelines é dataform-code-asset. Para fornecer mais contexto aos pipelines no Dataplex anexando anotações às entradas de pipeline de dados com aspectos, confira o tipo de aspecto dataform-code-asset, filtre os resultados com um filtro baseado em aspectos e defina o campo type dentro do aspecto dataform-code-asset como WORKFLOW. Para instruções sobre como anotar entradas com aspectos, consulte Gerenciar aspectos e enriquecer metadados na documentação do Dataplex.
Tipo
O tipo de telas de dados é WORKFLOW. Esse tipo permite filtrar pipelines no tipo de entrada do sistema dataform-code-asset e no tipo de aspecto dataform-code-asset usando a consulta aspect:dataplex-types.global.dataform-code-asset.type=WORKFLOW em um filtro baseado em aspectos.

Para instruções sobre como pesquisar recursos no Dataplex, consulte Pesquisar recursos de dados no Dataplex na documentação do Dataplex.

A seguir