Résoudre les problèmes de lignée de données

Ce document explique comment résoudre les problèmes liés à la traçabilité des données Dataplex Universal Catalog.

Types de projets

Les composants de données peuvent résider dans différents projets. Vous trouverez ci-dessous un récapitulatif des projets possibles et de leurs noms d'éléments.

Projet de stockage BigQuery

Ce projet stocke vos composants de données BigQuery. Vous le trouverez dans les détails de l'élément, dans Table ID, avant le premier point.

Dans l'UI BigQuery, le nom du projet de stockage est indiqué dans le champ "ID de la table", avant le premier point du nom complet de la table.
Figure 1. Nom d'un projet de stockage BigQuery.

Projet Compute

Ce projet stocke les métadonnées de traçabilité des données. Pour BigQuery, c'est là que vous exécutez un job. Si vous exécutez un job à l'aide de la console Google Cloud , vous pouvez trouver le nom du projet de calcul dans le sélecteur de projet :

L'UI BigQuery affiche un projet de calcul appelé "docs-compute" sur la page où vous exécutez des requêtes SQL.
Figure 2. Nom d'un projet de calcul qui exécute des jobs BigQuery.

Lorsque vous envoyez des requêtes à l'API BigQuery, spécifiez le projet de calcul dans l'URL, par exemple :

POST /bigquery/v2/projects/docs-compute/jobs HTTP/1.1
Host: bigquery.googleapis.com
User-Agent: Go-http-client/1.1
Authorization: <REDACTED 1031 BYTES>
Accept-Encoding: gzip
{
  "configuration": {
    "query": {
      "useLegacySql": false,
      "query": "CREATE OR REPLACE TABLE `docs-target.dataset.target-002` AS SELECT * FROM `docs-source.dataset.source-002`;"
    }
  },
  "jobReference": {
    "projectId": "docs-compute",
    "jobId": "docs-compute-job-id",
    "location": "us",
  }
}

Projet actif

Il s'agit du projet à partir duquel vous consultez la traçabilité des données. La console Google Cloud affiche le projet actif dans le sélecteur de projets. Si vous utilisez l'API, le projet actif est celui à partir duquel vous effectuez des appels d'API.

L&#39;UI BigQuery affiche la provenance des données pour un ensemble de données appelé &quot;source-001&quot;, qui se trouve dans un projet appelé &quot;docs-source&quot;.
Figure 3 : Projet actif dans la console Google Cloud .

La lignée de données BigQuery ne s'affiche pas

Le problème suivant se produit après l'exécution d'un job BigQuery. Dans ce cas, le problème peut être dû à trois scénarios :

  • L'API Data Lineage est désactivée dans le projet actif ou le projet de calcul.
  • Vous ne disposez pas du rôle Lecteur Data Lineage (roles/datalineage.viewer) dans le projet actif ni dans le projet compute.
  • La provenance des données n'est pas encore disponible. Selon le volume et la complexité des données traitées, la lignée de données peut mettre de 30 minutes à 24 heures à s'afficher.

Si le message "Échec de l'extraction de la traçabilité en raison d'autorisations manquantes" s'affiche en bas de la page, cela signifie que vous ne disposez pas des autorisations nécessaires pour le projet actif. Sinon, vous ne disposez pas des autorisations nécessaires pour le projet de calcul.

Graphique de traçabilité vide.
Figure 4 : Exemple de lignage ne s'affichant pas dans l'UI BigQuery.

Pour résoudre ce problème, vérifiez si l'API Data Lineage est activée pour le projet de calcul. Après avoir activé l'API, vous devez exécuter un job pour afficher la traçabilité des données. Selon le volume et la complexité des données traitées, la lignée de données peut mettre entre 30 minutes et 24 heures à s'afficher.

Ensuite, vérifiez si l'API Data Lineage est activée pour le projet actif.

Lorsque l'API Data Lineage est activée, accordez le rôle Lecteur Data Lineage (roles/datalineage.viewer) dans les projets actif et compute.

Les métadonnées du processus BigQuery ne s'affichent pas

Le problème suivant se produit lorsque vous ouvrez le volet d'informations sur la table, qui n'affiche pas tous les détails tels que l'instruction SQL ou la propriété Process type. Cela se produit même si l'origine des données s'affiche correctement.

Cela peut se produire lorsque vous n'êtes pas autorisé à afficher les métadonnées dans le projet de calcul.

Exemple :

Si vous cliquez sur les détails du processus BigQuery, le message suivant s'affiche dans la console Google Cloud  :

You don't have permission to view BigQuery process metadata in project X.
Dans l&#39;UI BigQuery, dans l&#39;onglet &quot;Ascendance&quot;, le volet &quot;Détails&quot; affiche un message d&#39;erreur.
Figure 5. Exemple de détails de processus BigQuery qui ne s'affichent pas dans l'UI BigQuery.

Pour résoudre ce problème, accordez à l'utilisateur l'autorisation bigquery.jobs.get (par exemple, incluse dans le rôle Lecteur de ressources BigQuery) dans le projet de calcul.

Les détails de la table BigQuery ne s'affichent pas

Le problème suivant se produit lorsque vous ouvrez le volet d'informations sur la table, qui n'affiche que la propriété Fully qualified name. Cela se produit même si la lignée de données s'affiche correctement. Cela peut se produire lorsque vous ne disposez pas de toutes les autorisations requises dans les projets de stockage de la table.

Exemple :

Dans ce cas, lorsque vous cliquez sur les détails du nœud BigQuery, le message Entry with this fully qualified name is not available in Dataplex Universal Catalog or you do not have permissions to view it s'affiche.

Les détails de la table BigQuery ne s&#39;affichent pas.
Figure 6 : Exemple de détails de table BigQuery qui ne s'affichent pas dans l'UI BigQuery.

Pour résoudre ce problème, accordez les autorisations bigquery.tables.get (par exemple, celles incluses dans le rôle Lecteur de données BigQuery) dans le projet de stockage.