Rastrear a linhagem de dados de uma tabela do BigQuery
Com a linhagem de dados, é possível acompanhar como os dados se movimentam nos sistemas: origem, destino e quais transformações são aplicadas a eles.
Saiba como começar a rastrear a linhagem de dados para jobs de cópia e consulta do BigQuery:
Copie duas tabelas de um conjunto de dados
new_york_taxi_trips
disponível publicamente.Combine o número total de corridas de táxi das duas tabelas em uma nova.
Confira um gráfico de visualização da linhagem para todas as três operações.
Antes de começar
Configure o projeto:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, BigQuery, and data lineage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, BigQuery, and data lineage APIs.
-
Leitor do Dataplex Catalog (
roles/dataplex.catalogViewer
) no projeto de recursos do Dataplex Universal Catalog -
Leitor da linhagem de dados (
roles/datalineage.viewer
) no projeto em que você usa o BigQuery -
Leitor de dados do BigQuery (
roles/bigquery.dataViewer
) no projeto em que você usa o BigQuery No Google Cloud console, acesse a página BigQuery.
No painel Explorer, clique em Adicionar dados.
No painel Adicionar dados, selecione Conjuntos de dados públicos.
No painel Marketplace, pesquise
NYC TLC Trips
e clique no resultado NYC TLC Trips.Clique em Ver conjunto de dados.
No painel Explorador, selecione o projeto em que você quer criar o conjunto de dados.
Clique em
Ações e em Criar conjunto de dados.Na página Criar conjunto de dados, no campo ID do conjunto de dados, insira:
data_lineage_demo
. Não altere os valores padrão dos outros campos.Clique em Criar conjunto de dados.
No painel Explorer, clique no
data_lineage_demo
recém-adicionado.Abra um editor de consultas: no painel de detalhes, ao lado da guia chamada
data_lineage_demo
, clique em (Escrever nova consulta). Essa etapa cria uma guia chamadaUntitled
.No editor de consultas, copie a primeira tabela inserindo a seguinte consulta. Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
Clique em
Executar. Esta etapa cria a primeira tabela, chamadanyc_green_trips_2021
.No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa mostra o conteúdo da primeira tabela.
No editor de consultas, copie a segunda tabela substituindo a consulta anterior pela seguinte: Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
Clique em
Executar. Esta etapa cria a segunda tabela, chamadanyc_green_trips_2022
.No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa mostra o conteúdo da segunda tabela.
No editor de consultas, insira a seguinte consulta: Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
Clique em
Executar. Essa etapa cria uma tabela combinada chamadatotal_green_trips_22_21
.No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa mostra a tabela combinada.
No console Google Cloud , acesse a página Pesquisa do Universal Catalog do Dataplex.
Em Escolher plataforma de pesquisa, selecione Dataplex Catalog como o modo de pesquisa.
Na caixa Pesquisar, digite
total_green_trips_22_21
e clique em Pesquisar.Na lista de resultados, clique em
total_green_trips_22_21
. Esta etapa mostra a guia Detalhes da tabela do BigQuery.Clique na guia Linhagem.
Para mostrar ou ocultar a origem de uma tabela, clique em + (Expandir) ou - (Recolher).
Para mostrar informações da tabela, clique em um nó. Esta etapa mostra um painel de Detalhes do nó.
Para mostrar informações do processo, clique em
. Esta etapa mostra um painel Detalhes do processo com o job que transformou uma tabela de origem em uma tabela de destino.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
No console do Google Cloud , acesse a página BigQuery.
No painel Explorer, pesquise o conjunto de dados
data_lineage_demo
que você criou.Clique com o botão direito do mouse no conjunto de dados e selecione Excluir.
Confirme a ação de exclusão.
- Saiba mais sobre a linhagem de dados.
- Saiba como executar consultas do BigQuery.
- Saiba como usar a linhagem de dados.
- Saiba mais sobre os preços do Dataplex Universal Catalog.
Funções exigidas
Para receber as permissões necessárias para visualizar gráficos de visualização de linhagem, peça ao seu administrador para conceder a você os seguintes papéis do IAM:
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Adicionar um conjunto de dados público ao projeto
Isso adiciona o projeto do conjunto de dados público como uma referência que pode ser visualizada no painel Explorador. O painel de detalhes mostra Informações do conjunto de dados, incluindo informações como ID do conjunto de dados, Local dos dados e data da Última modificação.
Criar um conjunto de dados no projeto
O painel de detalhes mostra as Informações do conjunto de dados.
Copiar duas tabelas acessíveis publicamente para seu conjunto de dados
Agregar dados em uma nova tabela
Ver o gráfico de linhagem no Dataplex Universal Catalog

No gráfico de linhagem, cada nó retangular representa uma tabela, seja ela original, copiada ou combinada. Faça o seguinte:

Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga as etapas abaixo.