Criar pipelines
Neste documento, descrevemos como criar pipelines no BigQuery. Os pipelines são gerados pelo Dataform.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
- Siga as instruções em Ativar o gerenciamento de recursos de código para salvar, compartilhar e gerenciar versões de recursos de código, como pipelines.
- Se esta for a primeira vez que você cria um recurso de código, defina a região padrão para armazenar recursos de código. Não é possível alterar a região de um recurso de código depois que ele é criado.
Funções necessárias para pipelines
Para receber as permissões necessárias para criar pipelines, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
-
Para criar pipelines:
Criador de código (
roles/dataform.codeCreator
) -
Para editar e executar pipelines:
Editor do Dataform (
roles/dataform.editor
)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Para mais informações sobre o IAM do Dataform, consulte Controlar o acesso com o IAM.
Papéis necessários para opções de notebooks
Para receber as permissões necessárias para selecionar um modelo de execução nas opções do notebook, peça ao administrador para conceder a você o papel do IAM de Usuário de execução do notebook (roles/aiplatform.notebookRuntimeUser
) no projeto.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Se você não tiver essa função, selecione a especificação padrão do ambiente de execução do notebook.
Criar um pipeline
Para criar um pipeline, siga estas etapas:
Acessar a página do BigQuery.
Na barra de guias do painel do editor, clique na
seta ao lado do sinal + e clique em Pipeline.Opcional: para renomear o pipeline, clique no nome dele e digite um novo nome.
Clique em Começar e acesse a guia Configurações.
No campo Conta de serviço, selecione uma conta de serviço do Dataform.
Na seção Local, selecione uma região de processamento para o pipeline.
- Para selecionar uma região específica, selecione Região e escolha uma no menu Região.
- Para selecionar uma multirregião, selecione Multirregião e escolha uma no menu Multirregião.
A região de processamento do pipeline não precisa corresponder à sua região de armazenamento padrão para recursos de código.
Opções de notebooks
Se você planeja adicionar um notebook ao seu pipeline, faça o seguinte na seção Opções de notebook:
No campo Modelo de execução, aceite o ambiente de execução padrão do notebook ou pesquise e selecione um ambiente de execução.
- Para conferir as especificações do ambiente de execução padrão, clique na seta adjacente.
- Para criar um novo ambiente de execução, consulte Criar um modelo de ambiente de execução.
No campo Bucket do Cloud Storage, clique em Procurar e selecione ou crie um bucket do Cloud Storage para armazenar a saída dos notebooks no pipeline.
Siga as instruções em Adicionar um principal a uma política no nível do bucket para adicionar a conta de serviço personalizada do Dataform como um principal ao bucket do Cloud Storage que você planeja usar para armazenar a saída de execuções de pipeline programadas e conceda o papel de administrador do Storage (
roles/storage.admin
) a esse principal.A conta de serviço personalizada do Dataform selecionada precisa receber o papel do IAM "Administrador de armazenamento" no bucket selecionado.
Adicionar uma tarefa de pipeline
Para adicionar uma tarefa a um pipeline, siga estas etapas:
No console do Google Cloud, acesse a página do BigQuery.
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Para adicionar um recurso de código, como uma consulta SQL, um notebook ou uma preparação de dados, faça o seguinte:
Consulta SQL
Clique em Adicionar tarefa e selecione Consulta. Você pode criar uma consulta ou importar uma já existente.
Opcional: no painel Detalhes da tarefa de consulta, no menu Executar depois, selecione uma tarefa que vai preceder a consulta.
Sua consulta vai depender da tarefa anterior.
Criar uma consulta
Clique no menu de setas
ao lado de Editar consulta e selecione No contexto ou Em uma nova guia.Pesquise uma consulta.
Selecione um nome de consulta e pressione Enter.
Clique em Salvar.
Opcional: para renomear a consulta, clique no nome da consulta no painel do pipeline, clique em Editar consulta, clique no nome da consulta atual na parte de cima da tela e digite um novo nome.
Importar uma consulta
Clique no menu de setas
ao lado de Editar consulta e em Importar uma cópia.Pesquise uma consulta para importar ou selecione uma consulta no painel de pesquisa. Quando você importa uma consulta, o original permanece inalterado porque o arquivo de origem da consulta é copiado para o pipeline.
Clique em Editar para abrir a consulta importada.
Clique em Salvar.
Notebook
Clique em Adicionar tarefa e selecione Notebook. Você pode criar um novo caderno ou importar um que já existe. Para alterar as configurações dos modelos de execução de notebooks, consulte Opções de notebooks.
Opcional: no painel Detalhes da tarefa do notebook, no menu Executar depois, selecione uma tarefa que vai preceder o notebook.
Seu notebook vai depender da tarefa anterior.
Criar um novo notebook
Clique no menu de setas
ao lado de Editar notebook e selecione No contexto ou Em uma nova guia.Pesquise um notebook.
Selecione um nome de notebook e pressione Enter.
Clique em Salvar.
Opcional: para renomear o notebook, clique no nome dele no painel do pipeline, clique em Edit Notebook, clique no nome do notebook na parte de cima da tela e digite um novo nome.
Importar um notebook existente
Clique no menu de setas
ao lado de Editar notebook e em Importar uma cópia.Pesquise um notebook para importar ou selecione um no painel de pesquisa. Quando você importa um notebook, o original permanece inalterado, porque o arquivo de origem dele é copiado para o pipeline.
Para abrir o notebook importado, clique em Editar.
Clique em Salvar.
Preparação de dados
Clique em Adicionar tarefa e selecione Preparação de dados. Você pode criar uma nova preparação de dados ou importar uma já existente.
Opcional: no painel Detalhes da tarefa de preparação de dados, no menu Executar depois, selecione uma tarefa que vai preceder a preparação de dados.
A preparação dos dados vai depender da tarefa anterior.
Criar uma nova preparação de dados
Clique no menu de setas
ao lado de Editar preparação de dados e selecione No contexto ou Em uma nova guia.Pesquise uma preparação de dados.
Selecione um nome de preparação de dados e pressione Enter.
Clique em Salvar.
Opcional: para renomear a preparação de dados, clique no nome da preparação de dados no painel do pipeline, clique em Editar preparação de dados, clique no nome na parte de cima da tela e insira um novo nome.
Importar uma preparação de dados existente
Clique no menu suspenso da seta
ao lado de Editar preparação de dados e clique em Importar uma cópia.Pesquise uma preparação de dados para importar ou selecione uma preparação de dados no painel de pesquisa. Quando você importa uma preparação de dados, o original permanece inalterado porque o arquivo de origem da preparação de dados é copiado para o pipeline.
Para abrir a preparação de dados importados, clique em Editar.
Clique em Salvar.
Editar uma tarefa de pipeline
Para editar uma tarefa de pipeline, siga estas etapas:
No console do Google Cloud, acesse a página do BigQuery.
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique na tarefa selecionada.
Para mudar a tarefa anterior, no menu Executar depois, selecione uma tarefa que vai preceder a consulta ou o notebook.
Para editar o conteúdo da tarefa selecionada, clique em Editar.
Na nova guia que abrir, edite o conteúdo da tarefa e salve as alterações.
Excluir uma tarefa de pipeline
Para excluir uma tarefa de um pipeline, siga estas etapas:
No console do Google Cloud, acesse a página do BigQuery.
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique na tarefa selecionada.
No painel Detalhes da tarefa, clique no ícone ExcluirExcluir.
Compartilhar um pipeline
Para compartilhar um pipeline, siga estas etapas:
No console do Google Cloud, acesse a página do BigQuery.
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique em Compartilhar e selecione Gerenciar permissões.
Clique em Adicionar usuário/grupo.
No campo Novos participantes, insira o nome de pelo menos um usuário ou grupo.
Em Atribuir papéis, selecione uma opção.
Clique em Salvar.
Compartilhar um link para um pipeline
No console do Google Cloud, acesse a página do BigQuery.
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique em Compartilhar e selecione Compartilhar link. O URL do pipeline é copiado para a área de transferência do computador.
Executar um pipeline
Para executar manualmente a versão atual de um pipeline, siga estas etapas:
No console do Google Cloud, acesse a página do BigQuery.
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique em Executar.
Opcional: para inspecionar a execução, confira as execuções manuais anteriores.
A seguir
- Saiba mais sobre os pipelines do BigQuery.
- Saiba como gerenciar pipelines.
- Saiba como programar pipelines.