Criar e executar um fluxo de trabalho no Dataform
Neste guia de início rápido, mostramos o processo a seguir no Dataform para criar e executar um fluxo de trabalho no BigQuery:
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
Criar e gerenciar repositórios, espaços de trabalho e invocações de fluxo de trabalho:
Administrador do Dataform (
roles/dataform.admin
) -
Executar fluxos de trabalho no BigQuery:
-
Editor de dados do BigQuery (
roles/bigquery.dataEditor
) -
Usuário de jobs do BigQuery (
roles/bigquery.jobUser
)
-
Editor de dados do BigQuery (
No Google Cloud console, acesse a página Dataform.
Clique em
Criar repositório.Na página Criar repositório, faça o seguinte:
No campo Código do repositório, insira
quickstart-repository
.Na lista Região, selecione
europe-west4
.Clique em Criar.
No Google Cloud console, acesse a página Dataform.
Clique em
quickstart-repository
.Clique em
Criar espaço de trabalho de desenvolvimento.Na janela Criar espaço de trabalho de desenvolvimento, faça o seguinte:
No campo Código do espaço de trabalho, digite
quickstart-workspace
.Clique em Criar.
A página do espaço de trabalho de desenvolvimento é exibida.
Clique em Inicializar espaço de trabalho.
No painel Arquivos, ao lado de
definitions/
, clique no menu Mais.Selecione Criar arquivo.
No painel Criar novo arquivo, faça o seguinte:
No campo Adicionar um caminho de arquivo, insira
definitions/quickstart-source.sqlx
.Selecione Criar arquivo.
No painel Arquivos, expanda a pasta "definitions".
Clique em
definitions/quickstart-source.sqlx
.No arquivo, digite este snippet de código:
config { type: "view" } SELECT "apples" AS fruit, 2 AS count UNION ALL SELECT "oranges" AS fruit, 5 AS count UNION ALL SELECT "pears" AS fruit, 1 AS count UNION ALL SELECT "bananas" AS fruit, 0 AS count
Clique em Formatar.
No painel Arquivos, ao lado de
definitions/
, clique no menu Mais e selecione Criar arquivo.No campo Adicionar um caminho de arquivo, insira
definitions/quickstart-table.sqlx
.Selecione Criar arquivo.
No painel Arquivos, abra o diretório
definitions/
.Selecione
quickstart-table.sqlx
e insira o tipo de tabela e a instruçãoSELECT
a seguir:config { type: "table" } SELECT fruit, SUM(count) as count FROM ${ref("quickstart-source")} GROUP BY 1
Clique em Formatar.
No Google Cloud console, acesse a página Dataform.
Na página
quickstart-workspace
, clique em Iniciar execução.Clique em Todas as ações.
Clique em Iniciar execução.
Na caixa de diálogo que aparece, clique em Permitir para conceder permissão aos Pipelines do BigQuery de acessar sua Conta do Google.
O Dataform usa as configurações de repositório padrão para criar o conteúdo do seu fluxo de trabalho em um conjunto de dados do BigQuery chamado
dataform
.Na página
quickstart-repository
, clique em Registros de execução de fluxo de trabalho.Para conferir os detalhes, clique na última execução.
No console Google Cloud , acesse a página BigQuery.
No painel Explorer, expanda o projeto e selecione
dataform
.Clique no menu
Ações e selecione Excluir.Na caixa de diálogo Excluir conjunto de dados, digite
delete
no campo e clique em Excluir.No Google Cloud console, acesse a página Dataform.
Clique em
quickstart-repository
.Na guia Espaços de trabalho de desenvolvimento, clique no menu
Mais ao lado dequickstart-workspace
e selecione Excluir.Para confirmar, clique em Excluir.
No Google Cloud console, acesse a página Dataform.
Em
quickstart-repository
, clique no menu Mais e selecione Excluir.Na janela Excluir repositório, insira o nome do repositório para confirmar a exclusão.
Para confirmar, clique em Excluir.
Para saber mais sobre o Dataform, consulte Visão geral do Dataform.
Para saber mais sobre os recursos do Dataform, consulte Recursos do Dataform.
Para saber mais sobre o Dataform Core, consulte Visão geral do Dataform Core.
Para saber como substituir as configurações padrão do Dataform do seu repositório, consulte Configurar as configurações do fluxo de trabalho do Dataform.
Para saber mais sobre como gerenciar conjuntos de dados no BigQuery, consulte Gerenciar conjuntos de dados.
Para saber mais sobre como gerenciar tabelas no BigQuery, consulte Gerenciar tabelas.
Funções exigidas
Para receber as permissões necessárias para criar e executar um fluxo de trabalho no Dataform, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto que vai hospedar seu repositório do Dataform:
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Criar um repositório do Dataform
criar e inicializar um espaço de trabalho de desenvolvimento do Dataform
Criar uma visualização
Nas seções a seguir, você define uma visualização que será usada posteriormente como fonte de dados para uma tabela.
criar um arquivo SQLX para definir uma visualização
Defina uma visualização
Criar uma tabela
Nas seções a seguir, você vai definir o tipo da tabela em um arquivo SQLX e, depois,
escrever uma instrução SELECT
para definir a estrutura da tabela no mesmo arquivo.
criar um arquivo SQLX para definição de tabela
Defina o tipo, a estrutura e as dependências da tabela
Depois de definir o tipo de tabela, o Dataform gera um erro de validação de consulta
porque quickstart-source
ainda não existe no BigQuery. Esse erro é resolvido quando você executa o fluxo de trabalho mais adiante neste tutorial.
Executar o fluxo de trabalho no BigQuery
Acessar registros de execução no Dataform
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
Excluir o conjunto de dados criado no BigQuery
Para evitar cobranças por recursos do BigQuery, exclua o conjunto de dados chamado dataform
.
Excluir o espaço de trabalho de desenvolvimento do Dataform
A criação de espaços de trabalho de desenvolvimento do Dataform não gera custos, mas para excluir o espaço de trabalho de desenvolvimento, siga estas etapas:
Excluir o repositório do Dataform
A criação de repositórios do Dataform não gera custos, mas para excluir o repositório, siga estas etapas: