Suivre la traçabilité des données pour une table BigQuery
La traçabilité des données vous permet de suivre la façon dont les données transitent par vos systèmes : leur origine, la cible de transmission, et les transformations qui leur sont appliquées.
Ce guide de démarrage rapide vous explique comment commencer à suivre la traçabilité des données pour les jobs de copie et de requête BigQuery :
Copiez deux tables à partir d'un ensemble de données
new_york_taxi_trips
accessible au public.Combinez le nombre total de courses en taxi des deux tables dans une nouvelle table.
Affichez un graphique de visualisation de traçabilité pour les trois opérations.
Avant de commencer
Configurez votre projet :
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, BigQuery, and Data Lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, BigQuery, and Data Lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Lecteur de catalogue Dataplex (
roles/dataplex.catalogViewer
) sur le projet de ressources Dataplex Universal Catalog -
Lecteur de la traçabilité des données (
roles/datalineage.viewer
) sur le projet dans lequel vous utilisez BigQuery -
Lecteur de données BigQuery (
roles/bigquery.dataViewer
) sur le projet dans lequel vous utilisez BigQuery Dans la console Google Cloud , accédez à la page "BigQuery".
Dans le volet Explorateur, cliquez sur Ajouter des données.
Dans le volet Ajouter des données, sélectionnez Ensembles de données publics.
Dans le volet Marketplace, recherchez
NYC TLC Trips
et cliquez sur le résultat NYC TLC Trips.Cliquez sur Afficher l'ensemble de données.
Dans le panneau Explorateur, sélectionnez le projet dans lequel vous souhaitez créer l'ensemble de données.
Cliquez sur
Actions, puis sur Créer un ensemble de données.Sur la page Créer un ensemble de données, saisissez
data_lineage_demo
dans le champ ID de l'ensemble de données. Conservez les valeurs par défaut dans les autres champs.Cliquez sur Créer un ensemble de données.
Dans le volet Explorateur, cliquez sur le
data_lineage_demo
qui vient d'être ajouté.Ouvrez un éditeur de requête : dans le volet Détails, à côté de l'onglet
data_lineage_demo
, cliquez sur (Saisir une nouvelle requête). Cette étape crée un onglet appeléUntitled
.Dans l'éditeur de requête, copiez la première table en saisissant la requête suivante. Remplacez
PROJECT_ID
par l'ID de votre projet.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
Cliquez sur
Exécuter. Cette étape crée la première table, appeléenyc_green_trips_2021
.Dans le volet Résultats de la requête, cliquez sur Accéder à la table. Cette étape affiche le contenu de la première table.
Dans l'éditeur de requête, copiez la deuxième table en remplaçant la requête précédente par la requête suivante. Remplacez
PROJECT_ID
par l'ID de votre projet.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
Cliquez sur
Exécuter. Cette étape crée la deuxième table, appeléenyc_green_trips_2022
.Dans le volet Résultats de la requête, cliquez sur Accéder à la table. Cette étape affiche le contenu de la deuxième table.
Dans l'éditeur de requête, saisissez la requête suivante. Remplacez
PROJECT_ID
par l'ID de votre projet.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
Cliquez sur
Exécuter. Cette étape crée une table combinée, appeléetotal_green_trips_22_21
.Dans le volet Résultats de la requête, cliquez sur Accéder à la table. Cette étape affiche la table combinée.
Dans la console Google Cloud , accédez à la page Rechercher de Dataplex Universal Catalog.
Pour Choisissez une plate-forme de recherche, sélectionnez Dataplex Universal Catalog comme mode de recherche.
Dans le champ Rechercher, saisissez
total_green_trips_22_21
, puis cliquez sur Rechercher.Dans la liste des résultats, cliquez sur
total_green_trips_22_21
. Cette étape affiche l'onglet Détails de la table BigQuery.Cliquez sur l'onglet Traçabilité.
Pour afficher ou masquer l'origine d'une table, cliquez sur + (Développer) ou - (Réduire).
Pour afficher des informations sur une table, cliquez sur un nœud. Cette étape affiche le volet Détails du nœud.
Pour afficher des informations sur un processus, cliquez sur
. Cette étape affiche le volet Détails du processus indiquant le job qui a transformé une table source en table cible.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, recherchez l'ensemble de données
data_lineage_demo
que vous avez créé.Effectuez un clic droit sur l'ensemble de données, puis sélectionnez Supprimer.
Confirmez la suppression.
- Découvrez-en plus sur la traçabilité des données.
- Découvrez comment exécuter des requêtes BigQuery.
- Découvrez comment utiliser la traçabilité des données.
- Découvrez-en plus sur les tarifs de Dataplex Universal Catalog.
Rôles requis
Pour obtenir les autorisations nécessaires pour afficher les graphiques de visualisation de la traçabilité, demandez à votre administrateur de vous accorder les rôles IAM suivants :
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Ajouter un ensemble de données public à votre projet
Le projet de l'ensemble de données public est ainsi ajouté en tant que référence que vous pouvez afficher dans le volet Explorateur. Le volet d'informations affiche les informations sur l'ensemble de données, y compris l'ID de l'ensemble de données, l'emplacement des données et la date de la dernière modification.
Créer un ensemble de données dans votre projet
Le volet Détails affiche les informations sur l'ensemble de données.
Copier deux tables accessibles au public dans votre ensemble de données
Regrouper des données dans une nouvelle table
Afficher le graphique de traçabilité dans Dataplex Universal Catalog

Dans le graphique de traçabilité, chaque nœud rectangulaire représente une table (originale, copiée ou combinée). Vous pouvez procéder comme suit :

Effectuer un nettoyage
Pour éviter que les ressources utilisées dans cette démonstration soient facturées sur votre compte Google Cloud , procédez comme suit :