Cette page a été traduite par l'API Cloud Translation.

À propos de la traçabilité des données

La traçabilité des données vous aide à suivre la façon dont les données transitent par vos systèmes. Vous pouvez voir l'origine, les destinations et les transformations appliquées à un composant de données.

Vous pouvez afficher les informations sur la lignée dans la console Google Cloud pour les assets Dataplex Universal Catalog, BigQuery et Vertex AI, ou vous pouvez les récupérer à l'aide de l'API Data Lineage.

Pourquoi avez-vous besoin de la traçabilité des données ?

Les grands ensembles de données nécessitent souvent de transformer les données en différents formats pour des projets spécifiques, tels que des fichiers texte, des tableaux, des rapports, des tableaux de bord et des modèles.

Par exemple, une boutique en ligne peut disposer d'un pipeline de données avec le flux suivant :

Un job Dataflow lit les événements d'achat bruts à partir d'un sujet Pub/Sub, les détails des produits à partir de fichiers Cloud Storage et les informations client à partir d'une table BigQuery. La tâche joint ces informations et crée une table purchases dans BigQuery.
Les jobs BigQuery suivants transforment la table purchases pour créer des tables agrégées plus petites, telles que region ou brand, et calculer de nouvelles colonnes, telles que total_profit.
Les analystes utilisent ces tables pour générer des rapports et des tableaux de bord dans Looker.

Ce scénario courant peut présenter plusieurs défis :

Les consommateurs de données ne disposent pas d'une méthode en libre-service pour vérifier si les données proviennent d'une source de référence.
Les ingénieurs des données ont du mal à identifier la cause des problèmes, car ils ne peuvent pas suivre de manière fiable toutes les transformations de données. Par exemple, si un analyste détecte une erreur dans une colonne total_profit, il est difficile de remonter à l'origine de l'erreur.
Les ingénieurs et analystes de données ne peuvent pas évaluer pleinement l'impact potentiel de la modification ou de la suppression de tables. Par exemple, avant d'abandonner une colonne product_id, ils doivent identifier toutes les colonnes en aval dépendantes pour éviter de casser les rapports.
Les gouverneurs de données n'ont pas de visibilité sur la façon dont les données sensibles sont utilisées dans l'ensemble de l'organisation, ce qui rend difficile de garantir la conformité aux exigences réglementaires.

La traçabilité des données résout ces problèmes en fournissant une carte visuelle claire du parcours de vos données. La traçabilité des données vous permet d'effectuer les opérations suivantes :

Comprendre comment les données sont obtenues et transformées à l'aide de graphiques de traçabilité
Identifier la cause des erreurs liées aux entrées et aux opérations de données
Améliorez la gestion des modifications grâce à l'analyse de l'impact pour éviter les temps d'arrêt ou les erreurs inattendues, comprendre les dépendances et collaborer avec les parties prenantes.

Workflow de traçabilité des données

Le workflow de traçabilité des données comprend les étapes suivantes :

Sources de données et ingestion : les informations sur la lignée de vos sources de données lancent l'ensemble du processus. Pour en savoir plus, consultez Sources de lignée.
- ServicesGoogle Cloud : lorsque l'API Data Lineage est activée, les services compatibles tels que BigQuery et Dataflow signalent automatiquement les événements de lineage chaque fois que des données sont déplacées ou transformées.
- Sources personnalisées : pour tous les systèmes qui ne sont pas automatiquement compatibles avec les intégrationsGoogle Cloud , vous pouvez utiliser l'API Data Lineage pour enregistrer manuellement les informations de traçabilité. Nous vous recommandons d'importer des événements mis en forme selon la norme OpenLineage.
Plate-forme de traçabilité : cette plate-forme centrale ingère, modélise et stocke toutes les données de traçabilité. Pour en savoir plus, consultez Modèle et précision des informations sur la lignée.
- API Data Lineage : cette API sert de point d'entrée unique pour toutes les informations de traçabilité entrantes. Il utilise un modèle de données hiérarchique composé de trois concepts de base : processus, exécution et événement.
- Traitement et stockage : la plate-forme traite les données entrantes et les stocke dans des bases de données fiables et optimisées pour les requêtes.
Expérience utilisateur : vous pouvez interagir avec les informations de lignée stockées de deux manières principales :
- Exploration visuelle : dans la console Google Cloud , un service d'interface récupère et affiche les données de lignée sous forme de graphique ou de liste interactifs. Cette fonctionnalité est compatible avec Dataplex Universal Catalog, BigQuery et Vertex AI (pour les modèles, les ensembles de données, les vues Feature Store et les groupes de caractéristiques). C'est idéal pour explorer visuellement le parcours de vos données. Pour en savoir plus, consultez Affichages de l'historique dans la console Google Cloud .
- Accès programmatique : à l'aide d'un client API, vous pouvez communiquer directement avec l'API Data Lineage pour automatiser la gestion de la provenance. Cela vous permet d'écrire des informations sur la traçabilité à partir de sources personnalisées. Il vous permet également de lire et d'interroger les données de lignée stockées pour les utiliser dans d'autres applications ou pour créer des rapports personnalisés.

Sources de traçabilité

Vous pouvez renseigner des informations sur la traçabilité dans Dataplex Universal Catalog de plusieurs manières :

Automatiquement à partir des services Google Cloud intégrés
Manuellement, en utilisant l'API Data Lineage pour les sources personnalisées
en important des événements depuis OpenLineage ;

Suivi automatisé de la traçabilité des données

Lorsque vous activez l'API Data Lineage,les systèmes Google Cloud qui prennent en charge la traçabilité des données commencent à signaler leurs mouvements de données. Chaque système intégré peut envoyer des informations de traçabilité pour une plage différente de sources de données.

BigQuery

Lorsque vous activez la traçabilité des données dans votre projet BigQuery, Dataplex Universal Catalog enregistre automatiquement les informations de traçabilité pour les éléments suivants :

Nouvelles tables créées à la suite des jobs BigQuery suivants :
- Jobs de copie
- Jobs de chargement qui utilisent un URI Cloud Storage
- Jobs de requête qui utilisent le langage de définition de données (LDD) suivant dans GoogleSQL :
  - CREATE TABLE
  - CREATE TABLE AS SELECT
  - CREATE TABLE COPY
  - CREATE TABLE CLONE
  - CREATE TABLE FUNCTION
  - CREATE TABLE LIKE
  - CREATE VIEW
  - CREATE MATERIALIZED VIEW
Tables existantes lorsque vous utilisez les instructions de langage de manipulation de données (LMD) suivantes dans GoogleSQL :
- SELECT par rapport à l'un des types de tables listés :
- INSERT SELECT
- MERGE
- UPDATE
- DELETE

Les jobs de copie, de requête et de chargement BigQuery sont représentés sous forme de processus.

Pour afficher les détails d'un processus, cliquez sur dans le graphique de traçabilité.

Chaque processus contient le job_id BigQuery dans la liste attributes pour le job BigQuery le plus récent.

Autres services

La traçabilité des données est compatible avec les servicesGoogle Cloud suivants :

Traçabilité des données pour les sources de données personnalisées

Vous pouvez utiliser l'API Data Lineage pour enregistrer manuellement les informations de traçabilité pour toute source de données non compatible avec les systèmes intégrés.

Dataplex Universal Catalog peut créer des graphiques de traçabilité pour les données de traçabilité enregistrées manuellement si vous utilisez un fullyQualifiedName qui correspond aux noms complets des entrées Dataplex Universal Catalog existantes. Si vous souhaitez enregistrer la traçabilité d'une source de données personnalisée, vous devez d'abord créer une entrée personnalisée.

Chaque processus pour une source de données personnalisée peut contenir une clé sql dans la liste des attributs. La valeur de cette clé est utilisée pour mettre en surbrillance le code dans le panneau des détails du graphique de traçabilité des données. L'instruction SQL s'affiche telle qu'elle a été fournie. Il vous incombe de filtrer les informations sensibles. Le nom de la clé sql est sensible à la casse.

OpenLineage

Si vous utilisez déjà OpenLineage pour collecter des informations de traçabilité à partir d'autres sources de données, vous pouvez importer des événements OpenLineage dans Dataplex Universal Catalog et les afficher dans la console Google Cloud . Pour en savoir plus, consultez Intégrer à OpenLineage.

Limites

Voici les limites de l'origine des données :

Toutes les informations de traçabilité ne sont conservées dans le système que pendant 30 jours.
Les informations de traçabilité sont conservées même après la suppression de la source de données associée. Par exemple, si vous supprimez une table BigQuery, vous pouvez toujours afficher sa traçabilité dans l'API et la console pendant 30 jours maximum.

Limites de la traçabilité au niveau de la colonne

L'ascendance au niveau des colonnes présente les limites supplémentaires suivantes :

La traçabilité au niveau des colonnes n'est pas collectée pour les jobs de chargement BigQuery ni pour les routines.
La traçabilité en amont au niveau des colonnes n'est pas collectée pour les tables externes.
La traçabilité au niveau des colonnes n'est pas collectée si un job crée plus de 1 500 liens au niveau des colonnes. Dans ce cas, seule la lignée au niveau de la table est collectée.
Il n'existe aucune API permettant de créer, lire, mettre à jour, supprimer ou rechercher l'héritage au niveau des colonnes.
La prise en charge des tables partitionnées est limitée, car les colonnes de partitionnement telles que _PARTITIONDATE et _PARTITIONTIME ne sont pas reconnues dans le graphique de lignée.
Limites de la console :
- La traversée du graphique de traçabilité est limitée à une profondeur de 20 niveaux et à 10 000 liens dans chaque direction.
- La lignée au niveau des colonnes n'est extraite que de la région où se trouve la table racine. La vue Graphique ne prend pas en charge le lineage interrégional.

Tarifs

Dataplex Universal Catalog utilise le SKU de traitement premium pour facturer la traçabilité des données. Pour en savoir plus, reportez-vous à la section Tarification.
Pour séparer les frais de traçabilité des données des autres frais associés au SKU de traitement premium Dataplex Universal Catalog, utilisez le libellé goog-dataplex-workload-type avec la valeur LINEAGE dans le rapport Cloud Billing.
Si vous appelez l'API Data Lineage Origin sourceType avec une valeur autre que CUSTOM, cela entraîne des coûts supplémentaires.

Étapes suivantes

Découvrez comment suivre la traçabilité des données pour une copie de table BigQuery et des jobs de requête.
Découvrez comment utiliser la traçabilité des données avec les systèmes Google Cloud .
En savoir plus sur les vues de lignage dans la console Google Cloud
Découvrez l'API Data Lineage.
Pour obtenir des informations administratives, consultez les considérations sur la traçabilité et la page dédiée à la journalisation d'audit de la traçabilité des données.