Resolver problemas de linhagem de dados

Este documento descreve como resolver problemas com a linhagem de dados do catálogo universal do Dataplex.

Tipos de projeto

Os recursos de dados podem estar em projetos diferentes. Confira a seguir um resumo dos possíveis projetos e os nomes dos recursos deles.

Projeto de armazenamento do BigQuery

Esse projeto armazena seus recursos de dados do BigQuery. Ele está nos detalhes do recurso como parte de Table ID, antes do primeiro ponto.

Na interface do BigQuery, o nome do projeto de armazenamento é mostrado no campo "ID da tabela", antes do primeiro ponto no nome totalmente qualificado da tabela.
Figura 1. O nome de um projeto de armazenamento do BigQuery.

Projeto do Compute

Esse projeto armazena os metadados de linhagem de dados. No BigQuery, é aqui que você executa um job. Se você executar um job usando o console Google Cloud , poderá encontrar o nome do projeto de computação no seletor de projetos:

A interface do BigQuery mostra um projeto de computação chamado "docs-compute" na página em que você executa consultas SQL.
Figura 2. O nome de um projeto de computação que executa jobs do BigQuery.

Ao enviar solicitações para a API BigQuery, especifique o projeto de computação no URL. Por exemplo:

POST /bigquery/v2/projects/docs-compute/jobs HTTP/1.1
Host: bigquery.googleapis.com
User-Agent: Go-http-client/1.1
Authorization: <REDACTED 1031 BYTES>
Accept-Encoding: gzip
{
  "configuration": {
    "query": {
      "useLegacySql": false,
      "query": "CREATE OR REPLACE TABLE `docs-target.dataset.target-002` AS SELECT * FROM `docs-source.dataset.source-002`;"
    }
  },
  "jobReference": {
    "projectId": "docs-compute",
    "jobId": "docs-compute-job-id",
    "location": "us",
  }
}

Projeto ativo

É o projeto em que você está visualizando a linhagem de dados. O console Google Cloud mostra o projeto ativo no seletor de projetos. Se você estiver usando a API, o projeto ativo será aquele de onde você está fazendo chamadas de API.

A interface do BigQuery mostra a linhagem de dados de um conjunto de dados chamado &quot;source-001&quot;, que está em um projeto chamado &quot;docs-source&quot;.
Figura 3. O projeto ativo no console do Google Cloud .

A linhagem de dados do BigQuery não está aparecendo

O problema a seguir ocorre depois de executar um job do BigQuery. Nesse caso, o problema pode ser causado por três cenários:

Se a mensagem "A busca da linhagem falhou devido à ausência de permissões" aparecer na parte de baixo da página, significa que você não tem permissões no projeto ativo. Caso contrário, você não tem permissões no projeto de computação.

Um gráfico de linhagem vazio.
Figura 4. Exemplo de linhagem não mostrada na interface do BigQuery.

Para resolver esse problema, verifique se a API Data Lineage está ativada para o projeto de computação. Depois de ativar a API, é necessário executar um job para conferir a linhagem de dados. Dependendo do volume e da complexidade dos dados processados, a linhagem de dados pode levar de 30 minutos a 24 horas para aparecer.

Em seguida, verifique se a API Data Lineage está ativada para o projeto ativo.

Quando a API Data Lineage estiver ativada, conceda o papel de leitor da linhagem de dados (roles/datalineage.viewer) nos projetos ativo e de computação.

Os metadados do processo do BigQuery não estão aparecendo

O problema a seguir ocorre quando você abre o painel de detalhes da tabela, que não mostra todos os detalhes, como a instrução SQL ou a propriedade Process type. Isso acontece mesmo que a linhagem de dados seja mostrada corretamente.

Isso pode acontecer quando você não tem permissões para ver metadados no projeto de computação.

Exemplo:

Ao clicar nos detalhes do processo do BigQuery, a seguinte mensagem aparece no console do Google Cloud :

You don't have permission to view BigQuery process metadata in project X.
Na guia &quot;Linhagem&quot; da interface do BigQuery, o painel &quot;Detalhes&quot; mostra uma mensagem de erro.
Figura 5. Exemplo de detalhes do processo do BigQuery que não aparecem na interface do BigQuery.

Para resolver esse problema, conceda ao usuário a permissão bigquery.jobs.get (por exemplo, incluída no papel Leitor de recursos do BigQuery) no projeto de computação.

Os detalhes da tabela do BigQuery não aparecem

O problema a seguir ocorre quando você abre o painel de detalhes da tabela, que mostra apenas a propriedade Fully qualified name. Isso acontece mesmo que a linhagem de dados seja mostrada corretamente. Isso pode acontecer quando você não tem todas as permissões necessárias nos projetos de armazenamento da tabela.

Exemplo:

Nesse caso, ao clicar nos detalhes do nó do BigQuery, você vai encontrar uma mensagem Entry with this fully qualified name is not available in Dataplex Universal Catalog or you do not have permissions to view it.

Os detalhes da tabela do BigQuery não aparecem.
Figura 6. Exemplo de detalhes da tabela do BigQuery que não aparecem na interface do BigQuery.

Para resolver esse problema, conceda as permissões bigquery.tables.get (por exemplo, incluídas no papel de leitor de dados do BigQuery) no projeto de armazenamento.