La traçabilité des données vous permet de suivre la façon dont les données transitent par vos systèmes : leur origine, la cible de transmission, et les transformations qui leur sont appliquées.
Pourquoi avez-vous besoin de la traçabilité des données ?
Le traitement de grands ensembles de données implique souvent de transformer les données en entités adaptées aux besoins d'un projet spécifique : fichiers texte, tables, rapports, tableaux de bord, modèles.
Par exemple, imaginons que vous possédiez une boutique en ligne dans laquelle vous enregistrez chaque achat dans une seule table SQL. Pour faciliter l'utilisation des données par vos analystes, vous commencez à exécuter des jobs qui extraient des informations de cette table unique et produisent des tables plus petites par région, par marque ou par prix soldé. Vos analystes commencent ensuite à faire de même : ils effectuent d'autres transformations, en fusionnant ces tables plus petites avec d'autres sources de données pour produire encore plus de tables.
Cela peut devenir un défi de taille pour vos partenaires :
- Les consommateurs de données ne peuvent pas utiliser d'outil en libre-service pour savoir si les données proviennent d'une source de référence.
- Les ingénieurs des données ne peuvent pas identifier la cause des problèmes, car il n'existe pas de moyen fiable de suivre toutes les transformations de données.
- Les ingénieurs et les analystes de données ne peuvent pas évaluer pleinement l'impact possible avant de modifier ou de supprimer des tables.
- Les gouverneurs de données ne peuvent pas comprendre comment les données sensibles sont utilisées dans l'ensemble de l'organisation ni vérifier le respect des exigences réglementaires.
La traçabilité des données est une solution qui permet de faire ce qui suit de manière pratique :
- Comprendre comment les données sont obtenues et transformées à l'aide de graphiques de traçabilité
- Identifier la cause des erreurs liées aux entrées et aux opérations de données
- Améliorer la gestion des modifications grâce à l'analyse de l'impact : évitez les temps d'arrêt ou les erreurs inattendues, comprenez les entrées dépendantes et collaborez avec les parties prenantes concernées
Modèle d'informations sur la traçabilité des données
Dans sa forme de base, la traçabilité est un enregistrement des données transformées de sources en cibles. L'API Data Lineage collecte ces informations et les organise dans un modèle de données hiérarchique à l'aide des concepts de processus, d'exécutions et d'événements.
Processus
Un processus est la définition d'une opération de transformation de données compatible avec un système spécifique. Dans le contexte de la traçabilité BigQuery, un process
est l'un des types de jobs acceptés.
Exécuter
Une exécution correspond à une exécution d'un processus. Les processus peuvent comporter plusieurs exécutions.
Les exécutions contiennent des informations telles que les heures de début et de fin, l'état ou des attributs supplémentaires.
Pour en savoir plus, consultez la documentation de référence sur la ressource run
.
Événement
Un événement représente un point dans le temps où une opération de transformation de données a eu lieu et a entraîné le déplacement de données entre une entité source et une entité cible.
Les événements contiennent une liste de liens qui définissent l'entrée source et l'entrée cible dans un événement donné. Bien que les événements soient utilisés pour calculer les graphiques de traçabilité, ils ne sont pas directement exposés dans la console Google Cloud . Vous pouvez les créer, les lire et les supprimer (mais pas les mettre à jour) à l'aide de l'API Data Lineage.
Exemple
Prenons l'exemple suivant, où des données sont copiées entre des tables BigQuery :

Le processus de traçabilité (représenté dans le graphique par l'icône ) décrit la façon dont les données se déplacent entre les tables. Il peut s'agir d'une requête SQL
CREATE TABLE AS SELECT
ou d'une instruction INSERT
.
Chaque exécution de cette instruction SQL constitue une exécution individuelle.
Les exécutions contiennent des événements qui enregistrent les tables utilisées comme sources et celles utilisées comme cibles. Dans cet exemple, les tables customer_year
et customers
sont toutes les deux la source de la table cible top_customer
.
Graphique de traçabilité
Les graphiques de traçabilité représentent les informations collectées par l'API Data Lineage pour une entrée Dataplex Universal Catalog spécifique. Un graphique de traçabilité montre la traçabilité en amont ou en aval d'une seule entrée racine. Racine fait référence à l'entrée pour laquelle vous consultez la traçabilité.

Dataplex Universal Catalog fonctionne avec l'API Data Lineage pour identifier les entrées dont le nom complet correspond aux entités reconnues par la traçabilité des données. Pour les entrées Dataplex Universal Catalog correspondantes, vous pouvez accéder à l'onglet Traçabilité sur la page de détails et afficher le graphique.
Les graphiques de traçabilité affichent deux types d'éléments :
Des boutons rectangulaires larges représentant les entités impliquées dans la construction des informations de traçabilité en tant que sources ou cibles d'un événement de traçabilité.
Des boutons carrés plus petits représentant les processus responsables de la création ou de la mise à jour des entités sources ou cibles. Les boutons de processus utilisent des icônes spécifiques au système source qui les a signalés à l'API Data Lineage. Par exemple, les jobs BigQuery utilisent l'icône
.
Visualisation du chemin de traçabilité
Les visualisations du chemin de traçabilité vous aident à comprendre les liens de traçabilité entre deux ressources sélectionnées. (Par opposition au graphique de traçabilité, qui affiche la traçabilité en amont ou en aval d'une seule entrée racine, potentiellement pour plusieurs sources ou cibles.)
Vous choisissez la ressource racine et une ressource cible, et la consoleGoogle Cloud affiche les liens de traçabilité entre les deux ressources. Les autres ressources et processus qui ne se trouvent pas sur un chemin entre les deux ressources sont masqués dans la visualisation du chemin.

Affichage de la traçabilité sous forme de liste
L'affichage de la traçabilité sous forme de liste présente les informations détaillées de traçabilité des entités dans une seule table.
Contrairement au graphique de traçabilité, qui est plus adapté à l'affichage de graphiques de traçabilité relativement petits, la vue sous forme de liste vous permet d'afficher les informations de traçabilité pour les entités comportant de nombreuses connexions.
L'image suivante montre un exemple de vue sous forme de liste dans la consoleGoogle Cloud . La liste suivante décrit l'image plus en détail.

Chaque ligne de la table représente un lien de traçabilité unique entre deux entrées. Dans le graphique, ces noms sont représentés sous forme de liens de traçabilité entre deux entrées, y compris les nœuds de processus intermédiaires. Par exemple,
Source
etTarget
sont des nœuds d'éléments, avec éventuellement plusieurs nœuds de processus entre eux.L'option Direction spécifie la partie du flux de données à afficher dans la liste, par rapport au composant racine :
En amont : affiche des informations sur la traçabilité des entrées qui sont des sources de données pour l'entrée sélectionnée. Dans le graphique de traçabilité, ces entrées sont celles qui apparaissent à gauche de l'entrée sélectionnée.
En aval : affiche des informations sur la traçabilité des entrées qui utilisent l'entrée sélectionnée ou en sont dérivées. Dans le graphique de traçabilité, ces entrées sont celles qui s'affichent à droite de l'entrée sélectionnée.
L'option Période vous permet de filtrer les informations de traçabilité en fonction du moment où les événements soumis à une traçabilité ont eu lieu :
Heure de début : affiche les données de traçabilité postérieures à l'heure de début.
Heure de fin : affiche les données de traçabilité antérieures à l'heure de fin.
Profondeur fait référence à la distance entre une ressource source ou dérivée et la ressource racine. La vue sous forme de liste affiche jusqu'à 1 000 liens de traçabilité, avec une profondeur maximale de 10 liens à partir de la racine. Si des données de traçabilité existent en dehors de cette plage, vous en êtes informé. Vous pouvez afficher les données de traçabilité en dehors de cette plage en sélectionnant le nom d'une autre entité dans la vue sous forme de liste.
Le panneau Détails affiche des informations sur la source du lien, sa cible et tous les processus qui l'ont créé.
Vous pouvez personnaliser les colonnes affichées dans la table et filtrer les résultats. Vous pouvez également exporter les résultats dans un fichier CSV.
Suivi automatisé de la traçabilité des données
Lorsque vous activez l'API Data Lineage, les systèmes Google Cloud qui prennent en charge la traçabilité des données commencent à signaler leurs mouvements de données. Chaque système intégré peut envoyer des informations de traçabilité pour une plage différente de sources de données. Pour en savoir plus sur chaque produit compatible, consultez les sections suivantes.
BigQuery
L'activation de la traçabilité des données dans votre projet BigQuery oblige Dataplex Universal Catalog à enregistrer automatiquement les informations de traçabilité pour les éléments suivants :
Nouvelles tables résultant des jobs BigQuery suivants :
- Jobs de copie
- Jobs de chargement qui utilisent l'URI Cloud Storage pour charger des données dans n'importe quel format autorisé à partir de Cloud Storage
- Jobs de requête qui utilisent le langage de définition de données (LDD) suivant dans GoogleSQL :
Tables existantes résultant de l'utilisation des instructions de langage de manipulation de données (LMD) suivantes dans GoogleSQL :
- SELECT par rapport à l'un des types de tables listés :
- INSERT SELECT
- MERGE
- UPDATE
- DELETE
Les jobs de copie, de requête et de chargement BigQuery sont représentés sous forme de processus. Pour afficher les détails d'un processus, cliquez sur dans le graphique de traçabilité.
Chaque processus contient le job_id BigQuery dans la liste attributes pour le job BigQuery le plus récent.
Autres services
La traçabilité des données est compatible avec les servicesGoogle Cloud suivants :
Traçabilité des données pour les sources de données personnalisées
Vous pouvez utiliser l'API Data Lineage pour enregistrer manuellement les informations de traçabilité pour toute source de données non compatible avec les systèmes intégrés.
Dataplex Universal Catalog peut créer des graphiques de traçabilité pour les données de traçabilité enregistrées manuellement si vous utilisez un fullyQualifiedName
qui correspond aux noms complets des entrées Dataplex Universal Catalog existantes. Si vous souhaitez enregistrer la traçabilité d'une source de données personnalisée, commencez par créer une entrée personnalisée.
Chaque processus pour une source de données personnalisée peut contenir la clé sql
dans la liste attributes. La valeur de cette clé sera utilisée pour mettre en surbrillance le code dans le panneau des détails du graphique de traçabilité des données. L'instruction SQL s'affichera telle qu'elle a été fournie. Il incombe à l'utilisateur de filtrer les informations sensibles. Le nom de la clé sql
est sensible à la casse.
OpenLineage
Si vous utilisez déjà OpenLineage pour collecter des informations de traçabilité à partir d'autres sources de données, vous pouvez importer des événements OpenLineage dans Dataplex Universal Catalog et les afficher dans la console Google Cloud . Pour en savoir plus, consultez Intégrer à OpenLineage.
Limites
- Toutes les informations de traçabilité ne sont conservées dans le système que pendant 30 jours.
- Les informations de traçabilité sont conservées même après la suppression de la source de données associée. En d'autres termes, si vous supprimez une table BigQuery et son entrée Dataplex Universal Catalog, vous pouvez toujours lire les données de traçabilité de cette table à l'aide de l'API pendant 30 jours maximum.
Accéder à la traçabilité des données
Pour savoir comment accéder à la traçabilité des données, consultez Utiliser la traçabilité des données avec les systèmes Google Cloud et API Data Lineage.
Tarification
Dataplex Universal Catalog utilise le SKU de traitement premium pour facturer la traçabilité des données. Pour en savoir plus, reportez-vous à la section Tarification.
Pour séparer les frais de traçabilité des données des autres frais associés au SKU de traitement premium Dataplex Universal Catalog, utilisez le libellé
goog-dataplex-workload-type
avec la valeurLINEAGE
dans le rapport Cloud Billing.Si vous appelez l'API Data Lineage
Origin
sourceType
avec une valeur autre queCUSTOM
, cela entraîne des coûts supplémentaires.
Étapes suivantes
Suivez un guide de démarrage rapide pour suivre la traçabilité des données pour les jobs de copie et de requête d'une table BigQuery.
Découvrez comment utiliser la traçabilité des données avec les systèmes Google Cloud .
Pour obtenir des informations administratives, consultez les considérations sur la traçabilité et la page dédiée à la journalisation d'audit de la traçabilité des données.