La traçabilité des données est une fonctionnalité Dataflow qui vous permet de suivre la manière dont les données transitent par vos systèmes : leur origine, la cible de transmission, et les transformations qui leur sont appliquées.
Chaque pipeline que vous exécutez à l'aide de Dataflow est associé à plusieurs composants de données. La traçabilité d'un élément de données inclut son origine, ce qui lui arrive et où il se déplace au fil du temps. La traçabilité des données vous permet de suivre le mouvement de bout en bout de vos composants de données, de leur origine à leur destination finale.
Lorsque vous activez le lineage des données pour vos jobs Dataflow, Dataflow capture les événements de lineage et les publie dans l'API Data Lineage de Dataplex Universal Catalog.
Pour accéder aux informations sur la traçabilité via Dataplex Universal Catalog, consultez Utiliser la traçabilité des données avec les systèmes Google Cloud .
Avant de commencer
Configurez votre projet :
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, BigQuery, and Data lineage APIs.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, BigQuery, and Data lineage APIs.
-
Lecteur de catalogue Dataplex (
roles/dataplex.catalogViewer
) sur le projet de ressources Dataplex Universal Catalog -
Lecteur de la traçabilité des données (
roles/datalineage.viewer
) sur le projet dans lequel vous utilisez Dataflow -
Lecteur Dataflow (
roles/dataflow.viewer
) sur le projet dans lequel vous utilisez Dataflow - La traçabilité des données est compatible avec les versions 2.63.0 et ultérieures du SDK Apache Beam.
- Vous devez activer la traçabilité des données pour chaque job.
- La capture des données n'est pas instantanée. L'affichage des données de traçabilité des jobs Dataflow dans Dataplex Universal Catalog peut prendre quelques minutes.
Les sources et récepteurs suivants sont acceptés :
- Apache Kafka
- BigQuery
- Bigtable
- Cloud Storage
- JDBC (Java Database Connectivity)
- Pub/Sub
- Spanner
Les modèles Dataflow qui utilisent ces sources et ces récepteurs capturent et publient également automatiquement les événements de traçabilité.
process_id
: identifiant unique utilisé par Dataplex Universal Catalog pour regrouper les exécutions de jobs. Si aucune valeur n'est spécifiée, le nom du job est utilisé.process_name
: nom lisible du processus de traçabilité des données. S'il n'est pas spécifié, le nom du job précédé de"Dataflow "
est utilisé.- En savoir plus sur la traçabilité des données
- Découvrez comment utiliser le lineage des données.
Dans Dataflow, vous devez également activer la traçabilité au niveau du job. Consultez Activer la traçabilité des données dans Dataflow dans ce document.
Rôles requis
Pour obtenir les autorisations nécessaires pour afficher les graphiques de visualisation de la traçabilité, demandez à votre administrateur de vous accorder les rôles IAM suivants :
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Pour en savoir plus sur les rôles de traçabilité des données, consultez Rôles prédéfinis pour la traçabilité des données.
Compatibilité et limites
La traçabilité des données dans Dataflow présente les limites suivantes :
Activer la traçabilité des données dans Dataflow
Vous devez activer le lineage au niveau du job. Pour activer le lineage de données, utilisez l'option de service Dataflow enable_lineage
comme suit :
Java
--dataflowServiceOptions=enable_lineage=true
Python
--dataflow_service_options=enable_lineage=true
Go
--dataflow_service_options=enable_lineage=true
gcloud
Exécutez la commande gcloud dataflow jobs run
avec l'option additional-experiments
. Si vous utilisez des modèles Flex, exécutez la commande gcloud dataflow flex-template run
.
--additional-experiments=enable_lineage=true
Vous pouvez éventuellement spécifier un ou plusieurs des paramètres suivants avec l'option de service :
Spécifiez ces options comme suit :
Java
--dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Python
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Go
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
gcloud
--additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Afficher la traçabilité dans Dataplex Universal Catalog
La traçabilité des données fournit des informations sur les relations entre les ressources de votre projet et les processus qui les ont créées. Vous pouvez afficher les informations sur la lignée des données dans la console Google Cloud sous la forme d'un graphique ou d'un tableau unique. Vous pouvez également récupérer des informations sur la lignée des données à partir de l'API Data Lineage sous forme de données JSON.
Pour en savoir plus, consultez Utiliser la traçabilité des données avec les systèmes Google Cloud .
Désactiver la traçabilité des données dans Dataflow
Si le lineage des données est activé pour un job spécifique et que vous souhaitez le désactiver, annulez le job existant et exécutez une nouvelle version du job sans l'option de service enable_lineage
.
Facturation
L'utilisation de la traçabilité des données dans Dataflow n'a aucune incidence sur votre facture Dataflow, mais elle peut entraîner des frais supplémentaires sur votre facture Dataplex Universal Catalog. Pour en savoir plus, consultez Points à prendre en compte concernant la traçabilité des données et les tarifs de Dataplex Universal Catalog.