Criar pipelines

Neste documento, descrevemos como criar pipelines no BigQuery. Os pipelines são gerados pelo Dataform.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  8. Funções necessárias para pipelines

    Para receber as permissões necessárias para criar pipelines, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

    Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

    Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

    Para mais informações sobre o IAM do Dataform, consulte Controlar o acesso com o IAM.

    Papéis necessários para opções de notebook

    Para receber as permissões necessárias para selecionar um modelo de ambiente de execução nas opções de notebook, peça ao administrador para conceder a você o papel do IAM Usuário do ambiente de execução do notebook (roles/aiplatform.notebookRuntimeUser) no projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

    Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

    Se você não tiver essa função, selecione a especificação padrão de tempo de execução do notebook.

    Definir a região padrão para recursos de código

    Se esta for a primeira vez que você cria um recurso de código, defina a região padrão para recursos de código. Não é possível mudar a região de um recurso de código depois que ele é criado.

    Todos os recursos de código no BigQuery Studio usam a mesma região padrão. Para definir a região padrão dos recursos de código, siga estas etapas:

    1. Acessar a página do BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, encontre o projeto em que você ativou os recursos de código.

    3. Clique em Ver ações ao lado do projeto e, em seguida, clique em Mudar minha região de código padrão.

    4. Em Região, selecione a região que você quer usar para recursos de código.

    5. Clique em Selecionar.

    Para conferir uma lista de regiões em que ele está disponível, consulte Locais do BigQuery Studio.

    Criar um pipeline

    Para criar um pipeline, siga estas etapas:

    1. Acessar a página do BigQuery.

      Acessar o BigQuery

    2. Na barra de guias do painel do editor, clique na seta ao lado do sinal + e clique em Pipeline.

    3. Opcional: para renomear o pipeline, clique no nome dele e digite um novo.

    4. Clique em Começar e acesse a guia Configurações.

    5. Na seção Autenticação, escolha autorizar o pipeline com as credenciais de usuário da sua Conta do Google ou uma conta de serviço.

      • Para usar as credenciais de usuário da sua Conta do Google (Prévia), selecione Executar com minhas credenciais de usuário.
      • Para usar uma conta de serviço, selecione Executar com a conta de serviço selecionada e escolha uma conta.
    6. Na seção Local, selecione uma região de processamento para o pipeline.

      1. Para selecionar uma região específica, clique em Região e escolha uma opção no menu Região.
      2. Para selecionar uma multirregião, clique em Multirregião e escolha uma opção no menu Multirregião.

      A região de processamento do pipeline não precisa corresponder à região de armazenamento padrão para recursos de código.

    Opções do notebook

    1. Se você planeja adicionar um notebook ao pipeline, faça o seguinte na seção Opções de notebook:

      1. No campo Modelo de ambiente de execução, aceite o ambiente de execução padrão do notebook ou pesquise e selecione um ambiente de execução existente.

      2. No campo Bucket do Cloud Storage, clique em Procurar e selecione ou crie um bucket do Cloud Storage para armazenar a saída dos notebooks no pipeline.

      3. Siga as instruções em Adicionar um principal a uma política no nível do bucket para adicionar a conta de serviço personalizada do Dataform como um principal ao bucket do Cloud Storage que você planeja usar para armazenar a saída de execuções de pipeline programadas e conceda o papel de administrador do Storage (roles/storage.admin) a esse principal.

        A conta de serviço personalizada do Dataform selecionada precisa receber o papel do IAM "Administrador de armazenamento" no bucket selecionado.

    Adicionar uma tarefa de pipeline

    Para adicionar uma tarefa a um pipeline, siga estas etapas:

    1. No console Google Cloud , acesse a página BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

    3. Para adicionar um recurso de código, como uma consulta SQL, um notebook ou uma preparação de dados, faça o seguinte:

      Consulta SQL

      1. Clique em Adicionar tarefa e selecione Consulta. Você pode criar uma consulta ou importar uma já existente.

      2. Opcional: no painel Detalhes da tarefa de consulta, no menu Executar após, selecione uma tarefa que vai preceder sua consulta.

        Sua consulta vai depender da tarefa anterior.

      Criar uma consulta

      1. Clique no menu de seta ao lado de Editar consulta e selecione No contexto ou Em uma nova guia.

      2. Pesquise uma consulta.

      3. Selecione um nome de consulta e pressione Enter.

      4. Clique em Salvar.

      5. Opcional: para renomear a consulta, clique no nome dela no painel de pipeline, clique em Editar consulta, clique no nome da consulta na parte de cima da tela e digite um novo nome.

      Importar uma consulta

      1. Clique no menu de seta ao lado de Editar consulta e clique em Importar uma cópia.

      2. Pesquise uma consulta para importar ou selecione uma no painel de pesquisa. Quando você importa uma consulta, a original permanece inalterada porque o arquivo de origem da consulta é copiado para o pipeline.

      3. Clique em Editar para abrir a consulta importada.

      4. Clique em Salvar.

      Notebook

      1. Clique em Adicionar tarefa e selecione Notebook. É possível criar ou importar um notebook. Para mudar as configurações dos modelos de ambiente de execução de notebook, consulte Opções de notebook.

      2. Opcional: no painel Detalhes da tarefa do notebook, no menu Executar após, selecione uma tarefa que vai preceder seu notebook.

        Seu notebook vai depender da tarefa anterior.

      Criar um notebook

      1. Clique no menu de seta ao lado de Editar notebook e selecione No contexto ou Em nova guia.

      2. Pesquise um notebook.

      3. Selecione um nome de notebook e pressione Enter.

      4. Clique em Salvar.

      5. Opcional: para renomear o notebook, clique no nome dele no painel de pipeline, clique em Editar notebook, clique no nome do notebook na parte de cima da tela e digite um novo nome.

      Importar um notebook

      1. Clique no menu de seta ao lado de Editar notebook e clique em Importar uma cópia.

      2. Pesquise um notebook para importar ou selecione um no painel de pesquisa. Quando você importa um notebook, o original permanece inalterado porque o arquivo de origem do notebook é copiado para o pipeline.

      3. Para abrir o notebook importado, clique em Editar.

      4. Clique em Salvar.

      Preparação de dados

      1. Clique em Adicionar tarefa e selecione Preparação de dados. Você pode criar uma nova preparação de dados ou importar uma já existente.

      2. Opcional: no painel Detalhes da tarefa de preparação de dados, no menu Executar após, selecione uma tarefa que vai preceder a preparação de dados.

        A preparação de dados vai depender da tarefa anterior.

      Criar uma nova preparação de dados

      1. Clique no menu de seta ao lado de Editar preparação de dados e selecione No contexto ou Em nova guia.

      2. Pesquise uma preparação de dados.

      3. Selecione um nome de preparação de dados e pressione "Enter".

      4. Clique em Salvar.

      5. Opcional: para renomear a preparação de dados, clique no nome dela no painel de pipeline, clique em Editar preparação de dados, clique no nome na parte de cima da tela e insira um novo nome.

      Importar uma preparação de dados atual

      1. Clique no menu suspenso de seta ao lado de Editar preparação de dados e clique em Importar uma cópia.

      2. Pesquise uma preparação de dados para importar ou selecione uma no painel de pesquisa. Quando você importa uma preparação de dados, o original permanece inalterado porque o arquivo de origem da preparação de dados é copiado para o pipeline.

      3. Para abrir a preparação de dados importados, clique em Editar.

      4. Clique em Salvar.

    Editar uma tarefa de pipeline

    Para editar uma tarefa de pipeline, siga estas etapas:

    1. No console Google Cloud , acesse a página BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

    3. Clique na tarefa selecionada.

    4. Para mudar a tarefa anterior, no menu Executar após, selecione uma tarefa que vai preceder sua consulta ou notebook.

    5. Para editar o conteúdo da tarefa selecionada, clique em Editar.

    6. Na nova guia que abrir, edite o conteúdo da tarefa e salve as mudanças.

    Excluir uma tarefa de pipeline

    Para excluir uma tarefa de um pipeline, siga estas etapas:

    1. No console Google Cloud , acesse a página BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

    3. Clique na tarefa selecionada.

    4. No painel Detalhes da tarefa, clique no ícone ExcluirExcluir.

    Compartilhar um pipeline

    Para compartilhar um pipeline, siga estas etapas:

    1. No console Google Cloud , acesse a página BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

    3. Clique em Compartilhar e selecione Gerenciar permissões.

    4. Clique em Adicionar usuário/grupo.

    5. No campo Novos participantes, insira o nome de pelo menos um usuário ou grupo.

    6. Em Atribuir papéis, selecione um papel.

    7. Clique em Salvar.

    1. No console Google Cloud , acesse a página BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

    3. Clique em Compartilhar e selecione Compartilhar link. O URL do seu pipeline é copiado para a área de transferência do computador.

    Executar um pipeline

    Para executar manualmente a versão atual de um pipeline, siga estas etapas:

    1. No console Google Cloud , acesse a página BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

    3. Clique em Executar. Se você selecionou Executar com minhas credenciais de usuário para sua autenticação, é necessário autorizar sua Conta do Google (Prévia).

    4. Opcional: para inspecionar a execução, confira as execuções manuais anteriores.

    Autorizar sua Conta do Google

    Para autenticar o recurso com suas credenciais de usuário da Conta do Google, conceda permissão manualmente para que os pipelines do BigQuery recebam o token de acesso da sua Conta do Google e acessem os dados de origem em seu nome. É possível conceder aprovação manual com a interface da caixa de diálogo do OAuth.

    Você só precisa conceder permissão aos pipelines do BigQuery uma vez.

    Para revogar a permissão concedida, siga estas etapas:

    1. Acesse a página da sua Conta do Google.
    2. Clique em Pipelines do BigQuery.
    3. Clique em Remover acesso.

    Se o pipeline tiver um notebook, você também precisará conceder manualmente permissão para que o Colab Enterprise receba o token de acesso da sua Conta do Google e acesse os dados de origem em seu nome. Você só precisa conceder permissão uma vez. É possível revogar essa permissão na página da Conta do Google.

    A seguir