Suivre la traçabilité des données d'une table BigQuery

La traçabilité des données vous permet de suivre la manière dont les données transitent par vos systèmes: leur origine, la cible de transmission, et les transformations qui leur sont appliquées.

Découvrez comment commencer à suivre la lignée des données pour les tâches de copie et d'interrogation BigQuery:

  1. Copiez deux tables à partir d'un ensemble de données new_york_taxi_trips accessible au public.

  2. Combinez le nombre total de trajets en taxi des deux tables dans une nouvelle table.

  3. Affichez un graphique de visualisation de la lignée pour les trois opérations.

Avant de commencer

Configurez votre projet:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

Rôles requis

Pour obtenir les autorisations nécessaires pour afficher les graphiques de visualisation de la traçabilité, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Ajouter un ensemble de données public à votre projet

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorer, cliquez sur Ajouter.

  3. Dans le volet Ajouter, recherchez Public datasets, puis sélectionnez le résultat Ensembles de données publics.

  4. Dans le volet Marketplace (Place de marché), recherchez NYC TLC Trips, puis cliquez sur le résultat NYC TLC Trips (Courses de taxi à New York).

  5. Cliquez sur Afficher l'ensemble de données.

Le projet de l'ensemble de données public est ajouté en tant que référence que vous pouvez consulter dans le volet Explorer. Le volet d'informations affiche les informations sur l'ensemble de données, y compris l'ID de l'ensemble de données, l'emplacement des données et la date de dernière modification.

Créer un ensemble de données dans votre projet

  1. Dans le volet Explorer, sélectionnez le projet dans lequel vous souhaitez créer l'ensemble de données.

  2. Cliquez sur Actions, puis sur Créer un ensemble de données.

  3. Sur la page Créer un ensemble de données, dans le champ ID de l'ensemble de données, saisissez : data_lineage_demo. Conservez les valeurs par défaut dans les autres champs.

  4. Cliquez sur Créer un ensemble de données.

  5. Dans le volet Explorer, cliquez sur le data_lineage_demo nouvellement ajouté.

Le volet d'informations affiche les informations sur l'ensemble de données.

Copier deux tables accessibles au public dans votre ensemble de données

  1. Ouvrez un éditeur de requête: dans le volet des détails, à côté de l'onglet data_lineage_demo, cliquez sur (Saisir une nouvelle requête). Cette étape crée un onglet appelé Untitled.

  2. Dans l'éditeur de requête, copiez la première table en saisissant la requête suivante. Remplacez PROJECT_ID par l'identifiant de votre projet.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Cliquez sur Exécuter. Cette étape crée la première table, appelée nyc_green_trips_2021.

  4. Dans le volet Résultats de la requête, cliquez sur Accéder au tableau. Cette étape affiche le contenu de la première table.

  5. Dans l'éditeur de requête, copiez le deuxième tableau en remplaçant la requête précédente par la requête suivante. Remplacez PROJECT_ID par l'identifiant de votre projet.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Cliquez sur Exécuter. Cette étape crée la deuxième table, appelée nyc_green_trips_2022.

  7. Dans le volet Résultats de la requête, cliquez sur Accéder au tableau. Cette étape affiche le contenu du deuxième tableau.

Agréger des données dans une nouvelle table

  1. Dans l'éditeur de requête, saisissez la requête suivante. Remplacez PROJECT_ID par l'identifiant de votre projet.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Cliquez sur Exécuter. Cette étape crée une table combinée, appelée total_green_trips_22_21.

  3. Dans le volet Résultats de la requête, cliquez sur Accéder au tableau. Cette étape affiche le tableau combiné.

Afficher le graphique de traçabilité dans Dataplex

  1. Dans la console Google Cloud, accédez à la page Recherche de Dataplex.

    Accéder à page de "Recherche" de Dataplex

  2. Pour Choisir une plate-forme de recherche, sélectionnez Data Catalog comme mode de recherche.

  3. Dans le champ Rechercher, saisissez total_green_trips_22_21, puis cliquez sur Rechercher.

  4. Dans la liste des résultats, cliquez sur total_green_trips_22_21. Cette étape affiche l'onglet Détails de la table BigQuery.

  5. Cliquez sur l'onglet Lignée.

Tableau "total_green_trips_22_21" avec le panneau d'informations ancré en bas.
Figure 1. Lignée des données avec des informations sur les nœuds

Dans le graphique de la lignée, chaque nœud rectangulaire représente un tableau, qu'il s'agisse d'un tableau d'origine, copié ou combiné. Vous pouvez procéder comme suit :

  • Pour afficher ou masquer l'origine d'un tableau, cliquez sur + (Développer) ou - (Réduire).

  • Pour afficher des informations sur une table, cliquez sur un nœud. Cette étape affiche un volet Détails du nœud.

  • Pour afficher des informations sur le processus, cliquez sur afficher les détails du processus de traçabilité ;. Cette étape affiche un volet Détails du processus qui indique la tâche ayant transformé une table source en table cible.

Tableau intermédiaire nyc_green_trips_2021 avec le panneau d'informations ancré en bas.
Figure 2 Traçabilité des données avec des détails sur le processus

Effectuer un nettoyage

Pour éviter que les ressources utilisées dans cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Supprimer l'ensemble de données

  1. Dans la console Google Cloud, accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorer, recherchez l'ensemble de données data_lineage_demo que vous avez créé.

  3. Effectuez un clic droit sur l'ensemble de données, puis sélectionnez Supprimer.

  4. Confirmez la suppression.

Étape suivante