Programar pipelines

Este documento descreve como programar pipelines do BigQuery, incluindo como programar pipelines e inspecionar execuções de pipeline programadas.

Os pipelines são gerados pelo Dataform.

Cada programação de pipeline é executada por uma conta de serviço, que você seleciona durante a criação da programação. Para mais informações sobre os tipos de contas de serviço no Dataform, consulte Sobre as contas de serviço no Dataform.

As mudanças feitas em um pipeline são salvas automaticamente, mas ficam disponíveis apenas para você e para os usuários que receberam a função de administrador do Dataform no projeto. Para atualizar a programação com uma nova versão do pipeline, implante o pipeline. A implantação atualiza a programação para usar a versão atual do pipeline. Os agendamentos sempre executam a versão implantada mais recente.

As programações de pipelines que contêm notebooks usam uma especificação de ambiente de execução padrão. Durante uma execução programada de um pipeline que contém notebooks, o BigQuery grava a saída do notebook no bucket do Cloud Storage selecionado durante a criação da programação.

Antes de começar

Antes de começar, crie um pipeline.

Ativar a programação do pipeline

Para programar pipelines, é necessário conceder os seguintes papéis à conta de serviço que você planeja usar para as programações de pipeline:

Usuário da conta de serviço (roles/iam.serviceAccountUser)
Siga Conceder uma única função em uma conta de serviço para adicionar a conta de serviço como principal a si mesma. Em outras palavras, adicione a conta de serviço como principal à mesma conta de serviço. Em seguida, conceda o papel de usuário da conta de serviço a esse principal.

Se o pipeline tiver consultas SQL, conceda os seguintes papéis à conta de serviço que você planeja usar para programações de pipeline:

Usuário de jobs do BigQuery(roles/bigquery.jobUser)
Siga Conceder um único papel em um projeto para conceder a função de usuário do job do BigQuery à sua conta de serviço em projetos de onde seus pipelines leem dados.
Leitor de dados do BigQuery (roles/bigquery.dataViewer)
Siga Conceder um único papel em um projeto para conceder o papel de leitor de dados do BigQuery à sua conta de serviço em projetos em que seus pipelines leem dados.
Editor de dados do BigQuery (roles/bigquery.dataEditor)
Siga Conceder um único papel em um projeto para conceder o papel de Editor de dados do BigQuery à sua conta de serviço em projetos para os quais seus pipelines gravam dados.

Se o pipeline tiver notebooks, conceda os seguintes papéis à conta de serviço que você planeja usar para as programações do pipeline:

Usuário Executor do notebook (roles/aiplatform.notebookExecutorUser)
Siga Conceder um único papel em um projeto para conceder a função de usuário de executor de notebooks à sua conta de serviço no projeto selecionado.
Administrador do Storage (roles/storage.admin)
Siga as instruções em Adicionar um principal a uma política no nível do bucket para adicionar a conta de serviço como um principal ao bucket do Cloud Storage que você planeja usar para armazenar a saída de notebooks executados em execuções de pipeline programadas e conceda o papel de administrador do Storage a esse principal.

Além disso, é necessário conceder o seguinte papel à conta de serviço padrão do Dataform:

Criador do token da conta de serviço (roles/iam.serviceAccountTokenCreator)
Siga as instruções em Conceder acesso à criação de tokens a uma conta de serviço para adicionar a conta de serviço padrão do Dataform como principal à sua conta de serviço e conceder o papel "Criador de token da conta de serviço" a esse principal.

Para saber mais sobre contas de serviço no Dataform, consulte Sobre as contas de serviço no Dataform.

Funções exigidas

Para conseguir as permissões necessárias para gerenciar pipelines, peça ao administrador para conceder a você os seguintes papéis do IAM:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Para mais informações sobre o IAM do Dataform, consulte Controlar o acesso com o IAM.

Para usar modelos de ambiente de execução do Colab ao programar pipelines, você precisa da função Usuário de ambiente de execução do notebook (roles/aiplatform.notebookRuntimeUser).

Criar uma programação de pipeline

Para criar uma programação de pipeline, siga estas etapas:

Painel Explorer

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique em Programação.

  4. No painel Programar pipeline, no campo Nome da programação, insira um nome para a programação.

  5. No campo Conta de serviço, selecione uma conta de serviço.

  6. Se o pipeline tiver um notebook, na seção Opções do notebook, no campo Modelo de execução, selecione um modelo de execução do Colab notebook ou as especificações de execução padrão. Para saber mais sobre como criar um modelo de ambiente de execução de notebook do Colab, consulte Criar um modelo de ambiente de execução.

  7. Se o pipeline tiver um notebook, na seção Opções do notebook, no campo Bucket do Cloud Storage, clique em Procurar e selecione ou crie um bucket do Cloud Storage para armazenar a saída dos notebooks no pipeline.

    A conta de serviço selecionada precisa receber o papel do IAM "Administrador de armazenamento" no bucket selecionado. Para mais informações, consulte Ativar a programação de pipelines.

  8. Na seção Frequência de programação, realize estas ações:

    1. No menu Repetições, selecione a frequência de execuções de pipeline programadas.
    2. No campo Em horário, insira o horário das execuções programadas do pipeline.
    3. No menu Fuso horário, selecione o fuso horário da programação.
  9. Clique em Criar programação.

Quando você cria a programação, a versão atual do pipeline é implantada automaticamente. Para atualizar a programação com uma nova versão do pipeline, implante o pipeline.

A versão mais recente implantada do pipeline é executada no horário e na frequência selecionados.

Página Programação

  1. No console do Google Cloud, acesse a página Programação.

    Acessar a programação

  2. Clique em Criar e selecione Programação do pipeline no menu.

  3. No painel Programar pipeline, selecione um pipeline para programar.

  4. No campo Nome da programação, insira um nome para a programação.

  5. No campo Conta de serviço, selecione uma conta de serviço do Dataform.

  6. Se o pipeline tiver um notebook, na seção Opções do notebook, no campo Modelo de execução, selecione um modelo de execução do Colab notebook ou as especificações de execução padrão. Para saber mais sobre como criar um modelo de ambiente de execução de notebook do Colab, consulte Criar um modelo de ambiente de execução.

  7. Se o pipeline tiver um notebook, no campo Bucket do Cloud Storage, clique em Procurar e selecione ou crie um bucket do Cloud Storage para armazenar a saída dos notebooks no pipeline.

    A conta de serviço selecionada precisa receber o papel do IAM "Administrador de armazenamento" no bucket selecionado. Para mais informações, consulte Ativar a programação de pipelines.

  8. Na seção Frequência de programação, realize estas ações:

    1. No menu Repetições, selecione a frequência de execuções programadas do pipeline.
    2. No campo Em horário, insira o horário das execuções programadas do pipeline.
    3. No menu Fuso horário, selecione o fuso horário da programação.
  9. Clique em Criar programação.

Implantar um pipeline

A implantação de um pipeline atualiza a programação com a versão atual do pipeline. Os agendamentos executam a versão implantada mais recente do pipeline.

Para implantar um pipeline, siga estas etapas:

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique em Implantar.

A programação correspondente é atualizada com a versão atual do pipeline. A versão mais recente implantada do pipeline é executada no horário programado.

Desativar uma programação

Para pausar as execuções programadas de um pipeline selecionado sem excluir a programação, desative a programação.

Para desativar uma programação de um pipeline selecionado, siga estas etapas:

Painel Explorer

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique em Ver programação.

  4. Na tabela de detalhes da programação, na linha Estado da programação, clique no botão A programação está ativada.

Página Programação

  1. No console do Google Cloud, acesse a página Programação.

    Acessar a programação

  2. Clique no nome do pipeline selecionado.

  3. Na página Detalhes da programação, clique em Desativar.

Ativar uma programação

Para retomar as execuções programadas de uma programação de pipeline desativada, siga estas etapas:

Painel Explorer

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique em Ver programação.

  4. Na tabela de detalhes da programação, na linha Estado da programação, clique no botão A programação está desativada.

Página Programação

  1. No console do Google Cloud, acesse a página Programação.

    Acessar a programação

  2. Clique no nome do pipeline selecionado.

  3. Na página Detalhes da programação, clique em Ativar.

Executar manualmente um pipeline implantado

Quando você executa manualmente um pipeline implantado em uma programação selecionada, o BigQuery executa o pipeline implantado uma vez, independente da programação.

Para executar manualmente um pipeline implantado, siga estas etapas:

  1. No console do Google Cloud, acesse a página Programação.

    Acessar a programação

  2. Clique no nome da programação do pipeline selecionada.

  3. Na página de detalhes da programação, clique em Executar.

Conferir todas as programações de pipeline

Para conferir todas as programações de pipeline no seu projeto do Google Cloud, siga estas etapas:

  1. No console do Google Cloud, acesse a página Programação.

    Acessar a programação

  2. Opcional: para mostrar outras colunas com detalhes da programação do pipeline, clique em Opções de exibição de colunas, selecione as colunas e clique em OK.

Conferir detalhes da programação do pipeline

Para conferir os detalhes de uma programação de pipeline selecionada, siga estas etapas:

Painel Explorer

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique em Ver programação.

Página Programação

  1. No console do Google Cloud, acesse a página Programação.

    Acessar a programação

  2. Clique no nome da programação do pipeline selecionada.

Conferir execuções programadas anteriores

Para conferir as execuções anteriores de uma programação de pipeline selecionada, siga estas etapas:

Painel Explorer

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique em Execuções.

  4. Opcional: para atualizar a lista de execuções anteriores, clique em Atualizar.

Página Programação

  1. No console do Google Cloud, acesse a página Programação.

    Acessar a programação

  2. Clique no nome do pipeline selecionado.

  3. Na página Detalhes da programação, na seção Execuções anteriores, inspecione as execuções anteriores.

  4. Opcional: para atualizar a lista de execuções anteriores, clique em Atualizar.

Editar uma programação de pipeline

Para editar uma programação de pipeline, siga estas etapas:

Painel Explorer

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique em Ver programação e em Editar.

  4. Na caixa de diálogo Programar pipeline, edite a programação e clique em Atualizar programação.

Página Programação

  1. No console do Google Cloud, acesse a página Programação.

    Acessar a programação

  2. Clique no nome do pipeline selecionado.

  3. Na página Detalhes da programação, clique em Editar.

  4. Clique em Ver programação e em Editar.

  5. Na caixa de diálogo Programar pipeline, edite a programação e clique em Atualizar programação.

Excluir uma programação de pipeline

Para excluir permanentemente uma programação de pipeline, siga estas etapas:

  1. No console do Google Cloud, acesse a página Programação.

    Acessar a programação

  2. Realize uma das seguintes ações:

    • Clique no nome da programação do pipeline selecionada e, na página Detalhes da programação, clique em Excluir.

    • Na linha que contém a programação de pipeline selecionada, clique em Ver ações na coluna Ações e em Excluir.

  3. Na caixa de diálogo exibida, clique em Excluir.

A seguir