Esta página foi traduzida pela API Cloud Translation.

Criar pipelines

Neste documento, descrevemos como criar pipelines no BigQuery. Os pipelines são gerados pelo Dataform.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the BigQuery, Dataform, and Vertex AI APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the BigQuery, Dataform, and Vertex AI APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Funções necessárias para pipelines

Para receber as permissões necessárias para criar pipelines, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

Para criar pipelines: Criador de código (roles/dataform.codeCreator)
Para editar e executar pipelines: Editor do Dataform (roles/dataform.editor)

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.

Para mais informações sobre o IAM do Dataform, consulte Controlar o acesso com o IAM.

Papéis necessários para opções de notebook

Para receber as permissões necessárias para selecionar um modelo de ambiente de execução nas opções de notebook, peça ao administrador para conceder a você o papel do IAM de Usuário do ambiente de execução do notebook (roles/aiplatform.notebookRuntimeUser) no projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.

Se você não tiver essa função, selecione a especificação padrão de tempo de execução do notebook.

Definir a região padrão para recursos de código

Se esta for a primeira vez que você cria um recurso de código, defina a região padrão para recursos de código. Não é possível mudar a região de um recurso de código depois que ele é criado.

Todos os recursos de código no BigQuery Studio usam a mesma região padrão. Para definir a região padrão dos recursos de código, siga estas etapas:

Acessar a página do BigQuery.

Acessar o BigQuery
No painel Explorer, encontre o projeto em que você ativou os recursos de código.
Clique em Ver ações ao lado do projeto e, em seguida, clique em Mudar minha região de código padrão.
Em Região, selecione a região que você quer usar para recursos de código.
Clique em Selecionar.

Para conferir uma lista de regiões compatíveis, consulte Locais do BigQuery Studio.

Criar um pipeline

Para criar um pipeline, siga estas etapas:

Acessar a página do BigQuery.

Acessar o BigQuery
Na barra de guias do painel do editor, clique na seta ao lado do sinal + e clique em Pipeline.
Opcional: para renomear o pipeline, clique no nome dele e digite um novo.
Clique em Começar e acesse a guia Configurações.
Na seção Autenticação, escolha autorizar o pipeline com as credenciais de usuário da sua Conta do Google ou uma conta de serviço.
- Para usar as credenciais de usuário da sua Conta do Google (Prévia), selecione Executar com minhas credenciais de usuário.
- Para usar uma conta de serviço, selecione Executar com a conta de serviço selecionada e escolha uma conta.
Na seção Local de processamento, selecione um local para o pipeline.
- Para ativar a seleção automática de um local, selecione Seleção automática de local. Essa opção seleciona um local com base nos conjuntos de dados referenciados na solicitação. O processo de seleção é o seguinte:
  - Se a consulta fizer referência a conjuntos de dados do mesmo local, o BigQuery usará esse local.
  - Se a consulta fizer referência a conjuntos de dados de dois ou mais locais diferentes, um erro vai ocorrer. Para mais detalhes sobre essa limitação, consulte Replicação de conjuntos de dados entre regiões.
  - Se a consulta não fizer referência a nenhum conjunto de dados, o BigQuery usará a multirregião US por padrão.
- Para escolher uma região específica, selecione Região e escolha uma opção no menu Região. Como alternativa, use a variável de sistema @@location na sua consulta. Para mais informações, consulte Especificar locais.
- Para escolher uma multirregião, selecione Multirregião e escolha uma no menu Multirregião.
O local de processamento do pipeline não precisa corresponder ao local de armazenamento padrão dos recursos de código.

Opções do notebook

Se você planeja adicionar um notebook ao pipeline, faça o seguinte na seção Opções de notebook:
1. No campo Modelo de ambiente de execução, aceite o ambiente de execução padrão do notebook ou pesquise e selecione um ambiente de execução existente.
  - Para conferir as especificações do ambiente de execução padrão, clique na seta ao lado.
  - Para criar um ambiente de execução, consulte Criar um modelo de ambiente de execução.
  Observação: um modelo de ambiente de execução do notebook precisa estar na mesma região do pipeline que o especifica.
2. No campo Bucket do Cloud Storage, clique em Procurar e selecione ou crie um bucket do Cloud Storage para armazenar a saída dos notebooks no pipeline.
3. Siga as instruções em Adicionar um principal a uma política no nível do bucket para adicionar a conta de serviço personalizada do Dataform como um principal ao bucket do Cloud Storage que você planeja usar para armazenar a saída de execuções de pipeline programadas e conceda o papel de administrador do Storage (roles/storage.admin) a esse principal.
  
  A conta de serviço personalizada do Dataform selecionada precisa receber o papel do IAM "Administrador de armazenamento" no bucket selecionado.

Adicionar uma tarefa de pipeline

Para adicionar uma tarefa a um pipeline, siga estas etapas:

No console Google Cloud , acesse a página BigQuery.

Acessar o BigQuery
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Para adicionar um recurso de código, selecione uma das seguintes opções:
Consulta SQL
1. Clique em Adicionar tarefa e selecione Consulta. Você pode criar uma consulta ou importar uma já existente.
2. Opcional: no painel Detalhes da tarefa de consulta, no menu Executar após, selecione uma tarefa para preceder sua consulta.
Criar uma consulta
1. Clique no menu de seta ao lado de Editar consulta e selecione No contexto ou Em uma nova guia.
2. Pesquise uma consulta.
3. Selecione um nome de consulta e pressione Enter.
4. Clique em Salvar.
5. Opcional: para renomear a consulta, clique no nome dela no painel de pipeline, em Editar consulta, no nome da consulta na parte de cima da tela e digite um novo nome.
Importar uma consulta
1. Clique no menu de seta ao lado de Editar consulta e clique em Importar uma cópia.
2. Pesquise uma consulta para importar ou selecione uma no painel de pesquisa. Quando você importa uma consulta, a original permanece inalterada porque o arquivo de origem da consulta é copiado para o pipeline.
3. Clique em Editar para abrir a consulta importada.
4. Clique em Salvar.
Notebook
1. Clique em Adicionar tarefa e selecione Notebook. É possível criar ou importar um notebook. Para mudar as configurações dos modelos de ambiente de execução do notebook, consulte Opções do notebook.
2. Opcional: no painel Detalhes da tarefa do notebook, no menu Executar após, selecione uma tarefa para preceder o notebook.
Criar um notebook
1. Clique no menu de seta ao lado de Editar notebook e selecione No contexto ou Em uma nova guia.
2. Pesquise um notebook.
3. Selecione um nome de notebook e pressione Enter.
4. Clique em Salvar.
5. Opcional: para renomear o notebook, clique no nome dele no painel de pipeline, clique em Editar notebook, clique no nome do notebook na parte de cima da tela e digite um novo nome.
Importar um notebook
1. Clique no menu de seta ao lado de Editar notebook e clique em Importar uma cópia.
2. Pesquise um notebook para importar ou selecione um no painel de pesquisa. Quando você importa um notebook, o original permanece inalterado porque o arquivo de origem do notebook é copiado para o pipeline.
3. Para abrir o notebook importado, clique em Editar.
4. Clique em Salvar.
Preparação de dados
1. Clique em Adicionar tarefa e selecione Preparação de dados. Você pode criar uma nova preparação de dados ou importar uma já existente.
2. Opcional: no painel Detalhes da tarefa de preparação de dados, no menu Executar após, selecione uma tarefa para preceder a preparação de dados.
Criar uma nova preparação de dados
1. Clique no menu de seta ao lado de Editar preparação de dados e selecione No contexto ou Em uma nova guia.
2. Pesquise uma preparação de dados.
3. Selecione um nome de preparação de dados e pressione "Enter".
4. Clique em Salvar.
5. Opcional: para renomear a preparação de dados, clique no nome dela no painel de pipeline, clique em Editar preparação de dados, clique no nome na parte de cima da tela e insira um novo nome.
Importar uma preparação de dados atual
1. Clique no menu suspenso de seta ao lado de Editar preparação de dados e clique em Importar uma cópia.
2. Pesquise uma preparação de dados para importar ou selecione uma no painel de pesquisa. Quando você importa uma preparação de dados, o original permanece inalterado porque o arquivo de origem da preparação de dados é copiado para o pipeline.
3. Para abrir a preparação de dados importados, clique em Editar.
4. Clique em Salvar.
Tabela

Prévia

Este produto ou recurso está sujeitos aos "Termos das Soluções Pré-GA" na seção Termos Gerais de Serviço dos Termos Específicos de Serviço. Os produtos e recursos pré-GA estão disponíveis no estado em que se encontram e podem ter suporte limitado. Para mais informações, consulte as descrições das fases de lançamento.

Observação: para enviar feedback ou solicitar suporte, entre em contato com dataform-preview-support@google.com.
1. Clique em Adicionar tarefa e selecione Tabela.
2. Insira um nome para a tabela.
3. No painel Detalhes da tarefa da tabela, clique em Abrir para abrir a tarefa.
4. Configure a tarefa usando as configurações em Detalhes > Configuração ou no bloco config do editor de código da tabela.
  
  Para mudanças de metadados, use a guia Configuração. Nela, é possível editar um valor específico no bloco config do editor de código, como uma string ou uma matriz, que é formatada como um objeto JavaScript. Usar essa guia ajuda a evitar erros de sintaxe e verificar se as configurações estão corretas.
  
  Opcional: no menu Executar após, selecione uma tarefa para preceder sua tabela.
  
  Também é possível definir os metadados da tarefa do pipeline no bloco config do editor. Para mais informações, consulte Como criar tabelas.
  
  O editor valida seu código e mostra o status da validação.
  
  Observação: quando você usa funções JavaScript como valores no bloco config, não é possível editar as funções JavaScript na guia Configuração.
5. Em Detalhes > Consultas compiladas, confira o SQL compilado do código SQLX.
6. Clique em Executar para executar o SQL no pipeline.
7. Em Resultados da consulta, inspecione a prévia dos dados.
Ver

Prévia

Este produto ou recurso está sujeitos aos "Termos das Soluções Pré-GA" na seção Termos Gerais de Serviço dos Termos Específicos de Serviço. Os produtos e recursos pré-GA estão disponíveis no estado em que se encontram e podem ter suporte limitado. Para mais informações, consulte as descrições das fases de lançamento.

Observação: para enviar feedback ou solicitar suporte, entre em contato com dataform-preview-support@google.com.
1. Clique em Adicionar tarefa e selecione Visualizar.
2. Insira um nome para a visualização.
3. No painel Ver detalhes da tarefa, clique em Abrir para abrir a tarefa.
4. Configure a tarefa usando as configurações em Detalhes > Configuração ou no bloco config do editor de código da visualização.
  
  Para mudanças de metadados, use a guia Configuração. Nela, é possível editar um valor específico no bloco config do editor de código, como uma string ou uma matriz, que é formatada como um objeto JavaScript. Usar essa guia ajuda a evitar erros de sintaxe e verificar se as configurações estão corretas.
  
  Opcional: no menu Executar após, selecione uma tarefa para preceder sua visualização.
  
  Também é possível definir os metadados da tarefa do pipeline no bloco config do editor. Para mais informações, consulte Como criar uma visualização com o Dataform Core.
  
  O editor valida seu código e mostra o status da validação.
  
  Observação: quando você usa funções JavaScript como valores no bloco config, não é possível editar as funções JavaScript na guia Configuração.
5. Em Detalhes > Consultas compiladas, confira o SQL compilado do código SQLX.
6. Clique em Executar para executar o SQL no pipeline.
7. Em Resultados da consulta, inspecione a prévia dos dados.

Editar uma tarefa de pipeline

Para editar uma tarefa de pipeline, siga estas etapas:

No console do Google Cloud , acesse a página BigQuery.

Acessar o BigQuery
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique na tarefa selecionada.
Para mudar a tarefa anterior, no menu Executar após, selecione uma tarefa que antecede a sua.
Para editar o conteúdo da tarefa selecionada, clique em Editar.
Na nova guia que será aberta, edite o conteúdo da tarefa e salve as mudanças.

Excluir uma tarefa de pipeline

Para excluir uma tarefa de um pipeline, siga estas etapas:

No console Google Cloud , acesse a página BigQuery.

Acessar o BigQuery
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique na tarefa selecionada.
No painel Detalhes da tarefa, clique no ícone ExcluirExcluir.

Compartilhar um pipeline

Para compartilhar um pipeline, siga estas etapas:

No console Google Cloud , acesse a página BigQuery.

Acessar o BigQuery
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique em Compartilhar e selecione Gerenciar permissões.
Clique em Adicionar usuário/grupo.
No campo Novos participantes, insira o nome de pelo menos um usuário ou grupo.
Em Atribuir papéis, selecione um papel.
Clique em Salvar.

Compartilhar um link para um pipeline

No console Google Cloud , acesse a página BigQuery.

Acessar o BigQuery
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique em Compartilhar e selecione Compartilhar link. O URL do seu pipeline é copiado para a área de transferência do computador.

Executar um pipeline

Para executar manualmente a versão atual de um pipeline, siga estas etapas:

No console Google Cloud , acesse a página BigQuery.

Acessar o BigQuery
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique em Executar. Se você selecionou Executar com minhas credenciais de usuário para sua autenticação, é necessário autorizar sua Conta do Google (prévia).
Opcional: para inspecionar a execução, confira as execuções manuais anteriores.

Autorizar sua Conta do Google

Para autenticar o recurso com suas credenciais de usuário da Conta do Google, conceda permissão manualmente para que os pipelines do BigQuery recebam o token de acesso da sua Conta do Google e acessem os dados de origem em seu nome. É possível conceder aprovação manual com a interface da caixa de diálogo do OAuth.

Você só precisa conceder permissão aos pipelines do BigQuery uma vez.

Para revogar a permissão concedida, siga estas etapas:

Acesse a página da sua Conta do Google.
Clique em Pipelines do BigQuery.
Clique em Remover acesso.

Se o pipeline tiver um notebook, você também precisará conceder manualmente permissão para que o Colab Enterprise receba o token de acesso da sua Conta do Google e acesse os dados de origem em seu nome. Você só precisa dar permissão uma vez. É possível revogar essa permissão na página da Conta do Google.

A seguir

Saiba mais sobre os pipelines do BigQuery.
Saiba como gerenciar pipelines.
Saiba como programar pipelines.

Criar pipelines

Antes de começar

Funções necessárias para pipelines

Papéis necessários para opções de notebook

Definir a região padrão para recursos de código

Criar um pipeline

Opções do notebook

Adicionar uma tarefa de pipeline

Consulta SQL

Notebook

Preparação de dados

Tabela

Ver

Editar uma tarefa de pipeline

Excluir uma tarefa de pipeline

Compartilhar um pipeline

Compartilhar um link para um pipeline

Executar um pipeline

Autorizar sua Conta do Google

A seguir