Die Datenherkunft ist eine Dataflow-Funktion, mit der Sie verfolgen können, wie sich Daten durch Ihre Systeme bewegen – woher sie kommen, wohin sie übergeben werden und welche Transformationen auf sie angewendet werden.
Jede Pipeline, die Sie mit Dataflow ausführen, hat mehrere zugehörige Daten-Assets. Die Herkunft eines Daten-Assets umfasst seinen Ursprung, was mit ihm passiert und wohin es sich im Laufe der Zeit bewegt. Mit der Datenherkunft können Sie die End-to-End-Weitergabe Ihrer Datenressourcen von der Quelle bis zum endgültigen Ziel verfolgen.
Wenn Sie die Datenableitung für Ihre Dataflow-Jobs aktivieren, erfasst Dataflow Ableitungsereignisse und veröffentlicht sie in der Data Lineage API von Dataplex.
Informationen zum Zugriff auf Herkunftsinformationen über Dataplex finden Sie unter Herkunft von Daten mit Google Cloud -Systemen verwenden.
Hinweise
Projekt einrichten:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, BigQuery, and Data lineage APIs.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, BigQuery, and Data lineage APIs.
In Dataflow müssen Sie die Abfolge auch auf Jobebene aktivieren. Weitere Informationen finden Sie in diesem Dokument unter Data Lineage in Dataflow aktivieren.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Diagrammen zur Herkunftsvisualisierung benötigen:
-
Dataplex Catalog Viewer (
roles/dataplex.catalogViewer
) für das Dataplex-Ressourcenprojekt -
Data Lineage-Betrachter (
roles/datalineage.viewer
) für das Projekt, in dem Sie Dataflow verwenden -
Dataflow-Betrachter (
roles/dataflow.viewer
) für das Projekt, in dem Sie Dataflow verwenden
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Weitere Informationen zu Rollen für die Datenableitung finden Sie unter Vordefinierte Rollen für die Datenableitung.
Unterstützung und Einschränkungen
Für die Datenabfolge in Dataflow gelten die folgenden Einschränkungen:
- Die Datenabfolge wird in den Apache Beam SDK-Versionen 2.63.0 und höher unterstützt.
- Sie müssen die Datenherkunft pro Job aktivieren.
- Die Datenerfassung erfolgt nicht sofort. Es kann einige Minuten dauern, bis Daten zur Abfolge von Dataflow-Jobs in Dataplex angezeigt werden.
Die folgenden Quellen und Senken werden unterstützt:
- Apache Kafka
- BigQuery
- Bigtable
- Cloud Storage
- JDBC (Java Database Connectivity)
- Pub/Sub
- Spanner
In Dataflow-Vorlagen, die diese Quellen und Ziele verwenden, werden Stammbaumereignisse ebenfalls automatisch erfasst und veröffentlicht.
Datenabfolge in Dataflow aktivieren
Sie müssen die Abfolge auf Jobebene aktivieren. Verwenden Sie die enable_lineage
Dataflow-Dienstoption, um die Datenabfolge zu aktivieren:
Java
--dataflowServiceOptions=enable_lineage=true
Python
--dataflow_service_options=enable_lineage=true
Go
--dataflow_service_options=enable_lineage=true
gcloud
Führen Sie den Befehl gcloud dataflow jobs run
mit der Option additional-experiments
aus. Wenn Sie flexible Vorlagen verwenden, verwenden Sie den Befehl gcloud dataflow flex-template run
.
--additional-experiments=enable_lineage=true
Optional können Sie einen oder beide der folgenden Parameter mit der Dienstoption angeben:
process_id
: Eine eindeutige Kennung, mit der Jobausführungen in Dataplex gruppiert werden. Wenn keine Angabe erfolgt, wird der Jobname verwendet.process_name
: Ein für Menschen lesbarer Name für den Datenabfolgeprozess. Wenn keine Angabe erfolgt, wird der Jobname mit dem Präfix"Dataflow "
verwendet.
Geben Sie diese Optionen so an:
Java
--dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Python
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Go
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
gcloud
--additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Lineage in Dataplex ansehen
Die Datenherkunft enthält Informationen zu den Beziehungen zwischen den Projektressourcen und den Prozessen, die sie erstellt haben. Sie können sich Informationen zur Datenabfolge in der Google Cloud Console in Form eines Diagramms oder einer einzelnen Tabelle ansehen. Sie können Informationen zur Datenherkunft auch in Form von JSON-Daten über die Data Lineage API abrufen.
Weitere Informationen finden Sie unter Herkunftsnachweis für Daten mit Google Cloud -Systemen verwenden.
Data Lineage in Dataflow deaktivieren
Wenn die Datenabfolge für einen bestimmten Job aktiviert ist und Sie sie deaktivieren möchten, brechen Sie den vorhandenen Job ab und führen Sie eine neue Version des Jobs ohne die Dienstoption enable_lineage
aus.
Abrechnung
Die Verwendung der Datenabfolge in Dataflow hat keine Auswirkungen auf Ihre Dataflow-Rechnung, kann aber zu zusätzlichen Kosten auf Ihrer Dataplex-Rechnung führen. Weitere Informationen finden Sie unter Hinweise zur Datenherkunft und Dataplex-Preise.