Criar pipelines

Neste documento, descrevemos como criar pipelines no BigQuery. Os pipelines são gerados pelo Dataform.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  8. Siga as instruções em Ativar o gerenciamento de recursos de código para salvar, compartilhar e gerenciar versões de recursos de código, como pipelines.
  9. Se esta for a primeira vez que você cria um recurso de código, defina a região padrão para armazenar recursos de código. Não é possível alterar a região de um recurso de código depois que ele é criado.

Funções necessárias para pipelines

Para receber as permissões necessárias para criar pipelines, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Para mais informações sobre o IAM do Dataform, consulte Controlar o acesso com o IAM.

Papéis necessários para opções de notebooks

Para receber as permissões necessárias para selecionar um modelo de execução nas opções do notebook, peça ao administrador para conceder a você o papel do IAM de Usuário de execução do notebook (roles/aiplatform.notebookRuntimeUser) no projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Se você não tiver essa função, selecione a especificação padrão do ambiente de execução do notebook.

Criar um pipeline

Para criar um pipeline, siga estas etapas:

  1. Acessar a página do BigQuery.

    Ir para o BigQuery

  2. Na barra de guias do painel do editor, clique na seta ao lado do sinal + e clique em Pipeline.

  3. Opcional: para renomear o pipeline, clique no nome dele e digite um novo nome.

  4. Clique em Começar e acesse a guia Configurações.

  5. No campo Conta de serviço, selecione uma conta de serviço do Dataform.

  6. Na seção Local, selecione uma região de processamento para o pipeline.

    1. Para selecionar uma região específica, selecione Região e escolha uma no menu Região.
    2. Para selecionar uma multirregião, selecione Multirregião e escolha uma no menu Multirregião.

    A região de processamento do pipeline não precisa corresponder à sua região de armazenamento padrão para recursos de código.

Opções de notebooks

  1. Se você planeja adicionar um notebook ao seu pipeline, faça o seguinte na seção Opções de notebook:

    1. No campo Modelo de execução, aceite o ambiente de execução padrão do notebook ou pesquise e selecione um ambiente de execução.

    2. No campo Bucket do Cloud Storage, clique em Procurar e selecione ou crie um bucket do Cloud Storage para armazenar a saída dos notebooks no pipeline.

    3. Siga as instruções em Adicionar um principal a uma política no nível do bucket para adicionar a conta de serviço personalizada do Dataform como um principal ao bucket do Cloud Storage que você planeja usar para armazenar a saída de execuções de pipeline programadas e conceda o papel de administrador do Storage (roles/storage.admin) a esse principal.

      A conta de serviço personalizada do Dataform selecionada precisa receber o papel do IAM "Administrador de armazenamento" no bucket selecionado.

Adicionar uma tarefa de pipeline

Para adicionar uma tarefa a um pipeline, siga estas etapas:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Para adicionar um recurso de código, como uma consulta SQL, um notebook ou uma preparação de dados, faça o seguinte:

    Consulta SQL

    1. Clique em Adicionar tarefa e selecione Consulta. Você pode criar uma consulta ou importar uma já existente.

    2. Opcional: no painel Detalhes da tarefa de consulta, no menu Executar depois, selecione uma tarefa que vai preceder a consulta.

      Sua consulta vai depender da tarefa anterior.

    Criar uma consulta

    1. Clique no menu de setas ao lado de Editar consulta e selecione No contexto ou Em uma nova guia.

    2. Pesquise uma consulta.

    3. Selecione um nome de consulta e pressione Enter.

    4. Clique em Salvar.

    5. Opcional: para renomear a consulta, clique no nome da consulta no painel do pipeline, clique em Editar consulta, clique no nome da consulta atual na parte de cima da tela e digite um novo nome.

    Importar uma consulta

    1. Clique no menu de setas ao lado de Editar consulta e em Importar uma cópia.

    2. Pesquise uma consulta para importar ou selecione uma consulta no painel de pesquisa. Quando você importa uma consulta, o original permanece inalterado porque o arquivo de origem da consulta é copiado para o pipeline.

    3. Clique em Editar para abrir a consulta importada.

    4. Clique em Salvar.

    Notebook

    1. Clique em Adicionar tarefa e selecione Notebook. Você pode criar um novo caderno ou importar um que já existe. Para alterar as configurações dos modelos de execução de notebooks, consulte Opções de notebooks.

    2. Opcional: no painel Detalhes da tarefa do notebook, no menu Executar depois, selecione uma tarefa que vai preceder o notebook.

      Seu notebook vai depender da tarefa anterior.

    Criar um novo notebook

    1. Clique no menu de setas ao lado de Editar notebook e selecione No contexto ou Em uma nova guia.

    2. Pesquise um notebook.

    3. Selecione um nome de notebook e pressione Enter.

    4. Clique em Salvar.

    5. Opcional: para renomear o notebook, clique no nome dele no painel do pipeline, clique em Edit Notebook, clique no nome do notebook na parte de cima da tela e digite um novo nome.

    Importar um notebook existente

    1. Clique no menu de setas ao lado de Editar notebook e em Importar uma cópia.

    2. Pesquise um notebook para importar ou selecione um no painel de pesquisa. Quando você importa um notebook, o original permanece inalterado, porque o arquivo de origem dele é copiado para o pipeline.

    3. Para abrir o notebook importado, clique em Editar.

    4. Clique em Salvar.

    Preparação de dados

    1. Clique em Adicionar tarefa e selecione Preparação de dados. Você pode criar uma nova preparação de dados ou importar uma já existente.

    2. Opcional: no painel Detalhes da tarefa de preparação de dados, no menu Executar depois, selecione uma tarefa que vai preceder a preparação de dados.

      A preparação dos dados vai depender da tarefa anterior.

    Criar uma nova preparação de dados

    1. Clique no menu de setas ao lado de Editar preparação de dados e selecione No contexto ou Em uma nova guia.

    2. Pesquise uma preparação de dados.

    3. Selecione um nome de preparação de dados e pressione Enter.

    4. Clique em Salvar.

    5. Opcional: para renomear a preparação de dados, clique no nome da preparação de dados no painel do pipeline, clique em Editar preparação de dados, clique no nome na parte de cima da tela e insira um novo nome.

    Importar uma preparação de dados existente

    1. Clique no menu suspenso da seta ao lado de Editar preparação de dados e clique em Importar uma cópia.

    2. Pesquise uma preparação de dados para importar ou selecione uma preparação de dados no painel de pesquisa. Quando você importa uma preparação de dados, o original permanece inalterado porque o arquivo de origem da preparação de dados é copiado para o pipeline.

    3. Para abrir a preparação de dados importados, clique em Editar.

    4. Clique em Salvar.

Editar uma tarefa de pipeline

Para editar uma tarefa de pipeline, siga estas etapas:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique na tarefa selecionada.

  4. Para mudar a tarefa anterior, no menu Executar depois, selecione uma tarefa que vai preceder a consulta ou o notebook.

  5. Para editar o conteúdo da tarefa selecionada, clique em Editar.

  6. Na nova guia que abrir, edite o conteúdo da tarefa e salve as alterações.

Excluir uma tarefa de pipeline

Para excluir uma tarefa de um pipeline, siga estas etapas:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique na tarefa selecionada.

  4. No painel Detalhes da tarefa, clique no ícone ExcluirExcluir.

Compartilhar um pipeline

Para compartilhar um pipeline, siga estas etapas:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique em Compartilhar e selecione Gerenciar permissões.

  4. Clique em Adicionar usuário/grupo.

  5. No campo Novos participantes, insira o nome de pelo menos um usuário ou grupo.

  6. Em Atribuir papéis, selecione uma opção.

  7. Clique em Salvar.

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique em Compartilhar e selecione Compartilhar link. O URL do pipeline é copiado para a área de transferência do computador.

Executar um pipeline

Para executar manualmente a versão atual de um pipeline, siga estas etapas:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

  3. Clique em Executar.

  4. Opcional: para inspecionar a execução, confira as execuções manuais anteriores.

A seguir