Mit der Datenherkunft können Sie nachvollziehen, wie Daten sich durch Ihre Systeme bewegen: woher sie stammen, wohin sie übertragen werden und welche Transformationen auf sie angewendet werden.
Warum benötigen Sie Data Lineage?
Bei der Verarbeitung großer Datasets müssen Daten oft in Entitäten umgewandelt werden, die auf die Anforderungen eines bestimmten Projekts zugeschnitten sind: Textdateien, Tabellen, Berichte, Dashboards, Modelle.
Angenommen, Sie haben einen Onlineshop und erfassen jeden Kauf in einer einzigen SQL-Tabelle. Damit Ihre Analysten einfacher mit den Daten arbeiten können, führen Sie Jobs aus, mit denen Informationen aus dieser einzelnen Tabelle extrahiert und kleinere Tabellen nach Region, Marke oder Verkaufspreis erstellt werden. Ihre Analysten beginnen dann mit dem gleichen Prozess: Sie führen weitere Transformationen durch und führen diese kleineren Tabellen mit anderen Datenquellen zusammen, um noch mehr Tabellen zu erstellen.
Das kann für Ihre Stakeholder zu einer großen Herausforderung werden:
- Datenverbraucher können nicht mit einem Self-Service-Tool herausfinden, ob Daten aus einer autoritativen Quelle stammen.
- Data Engineers können Probleme nicht beheben, da es keine zuverlässige Möglichkeit gibt, alle Datentransformationen nachzuvollziehen.
- Data Engineers und Analysten können die möglichen Auswirkungen nicht vollständig bewerten, bevor sie Tabellen ändern oder löschen.
- Data Governors können nicht nachvollziehen, wie sensible Daten in der gesamten Organisation verwendet werden, und die Einhaltung der regulatorischen Anforderungen nicht überprüfen.
Die Datenherkunft ist eine Lösung, die eine praktische Möglichkeit bietet, Folgendes zu tun:
- Mithilfe von Herkunftsgraphen können Sie nachvollziehen, wie Daten gewonnen und transformiert werden.
- Trace-Fehler im Zusammenhang mit Einträgen und Datenvorgängen lassen sich auf ihre Ursachen zurückführen.
- Durch die Analyse der Auswirkungen können Sie das Änderungsmanagement verbessern: Vermeiden Sie Ausfallzeiten oder unerwartete Fehler, verstehen Sie abhängige Einträge und arbeiten Sie mit relevanten Stakeholdern zusammen.
Informationsmodell für Datenherkunft
Im Grunde ist Lineage ein Datensatz, in dem die Transformation von Daten aus Quellen in Ziele aufgezeichnet wird. Die Data Lineage API erfasst diese Informationen und organisiert sie in einem hierarchischen Datenmodell mit den Konzepten von Prozessen, Ausführungen und Ereignissen.
Prozess
Ein Prozess ist die Definition eines Datenumwandlungsvorgangs, der für ein bestimmtes System unterstützt wird. Im Kontext von BigQuery-Abstammung ist ein process
einer der unterstützten Jobtypen.
Ausführen
Eine Ausführung ist die Ausführung eines Prozesses. Prozesse können mehrere Ausführungen haben.
Ausführungen enthalten Details wie Start- und Endzeit, Status oder zusätzliche Attribute.
Weitere Informationen finden Sie in der Ressourcenreferenz zu run
.
Ereignis
Ein Ereignis stellt einen Zeitpunkt dar, zu dem eine Datentransformation stattgefunden hat und Daten zwischen einer Quell- und einer Zielentität verschoben wurden.
Ereignisse enthalten eine Liste von Links, die definieren, welcher Eintrag die Quelle und welcher das Ziel in einem bestimmten Ereignis war. Ereignisse werden zwar zum Berechnen von Herkunftsgraphen verwendet, sind aber nicht direkt in der Google Cloud Konsole verfügbar. Sie können sie mit der Data Lineage API erstellen, lesen und löschen, aber nicht aktualisieren.
Beispiel
Im folgenden Beispiel werden Daten zwischen BigQuery-Tabellen kopiert:

Wie Daten zwischen den Tabellen verschoben werden, wird durch den Lineage-Prozess beschrieben (im Diagramm durch das Symbol dargestellt): Das kann eine SQL-
CREATE TABLE AS SELECT
-Abfrage oder eine INSERT
-Anweisung sein.
Jede Ausführung dieser SQL-Anweisung wäre ein einzelner Lauf.
Läufe enthalten Ereignisse, in denen aufgezeichnet wird, welche Tabellen als Quellen und welche als Ziele verwendet wurden. In diesem Beispiel sind die Tabellen customer_year
und customers
beide die Quelle für die Zieltabelle top_customer
.
Herkunftsdiagramm
Lineage-Diagramme stellen Informationen dar, die von der Data Lineage API für einen bestimmten Dataplex Universal Catalog-Eintrag erfasst wurden. Ein Herkunftsdiagramm zeigt die Herkunft, die einem einzelnen Stammbaum-Eintrag vor- oder nachgelagert ist. Root bezieht sich auf den Eintrag, für den Sie den Datenursprung ansehen.

Dataplex Universal Catalog verwendet die Data Lineage API, um Einträge zu identifizieren, deren voll qualifizierter Name mit von der Datenherkunft erkannten Entitäten übereinstimmt. Für übereinstimmende Dataplex Universal Catalog-Einträge können Sie auf der Detailseite auf den Tab Lineage zugreifen und das Diagramm ansehen.
In Herkunftsgraphen werden zwei Arten von Elementen dargestellt:
Breite, rechteckige Schaltflächen, die Entitäten darstellen, die an der Erstellung von Informationen zum Datenursprung als Quellen oder Ziele eines Datenursprungsereignisses beteiligt sind.
Kleinere, quadratische Schaltflächen, die Prozesse darstellen, die für das Erstellen oder Aktualisieren der Quell- oder Zielentitäten verantwortlich sind. Für die Prozessschaltflächen werden Symbole verwendet, die für das Quellsystem spezifisch sind, das sie an die Data Lineage API gemeldet hat. Für BigQuery-Jobs wird beispielsweise das Symbol
verwendet.
Visualisierung des Herkunftspfads
Mit Visualisierungen von Herkunftspfaden können Sie die Herkunftsverknüpfungen zwischen zwei ausgewählten Ressourcen nachvollziehen. Im Gegensatz dazu zeigt das Herkunftsdiagramm die Herkunft, die sich vor oder nach einem einzelnen Stamm-Eintrag befindet, möglicherweise für mehrere Quellen oder Ziele.
Sie wählen die Stammressource und eine Zielressource aus. In derGoogle Cloud -Konsole werden dann die Herkunftsverknüpfungen zwischen den beiden Ressourcen angezeigt. Andere Ressourcen und Prozesse, die nicht auf einem Pfad zwischen den beiden Ressourcen liegen, werden in der Pfadvisualisierung ausgeblendet.

Lineage-Listenansicht
In der Herkunftslistenansicht werden detaillierte Informationen zur Herkunft für Entitäten in einer einzelnen Tabelle angezeigt.
Im Vergleich zum Herkunftsdiagramm, das sich besser für relativ kleine Herkunftsdiagramme eignet, können Sie in der Herkunftslistenansicht Herkunftsinformationen für Entitäten mit vielen Verbindungen ansehen.
Das folgende Bild zeigt ein Beispiel für die Ansicht der Herkunft in derGoogle Cloud -Konsole. In der folgenden Liste wird das Bild genauer beschrieben.

Jede Zeile in der Tabelle stellt eine einzelne Herkunftsinformation zwischen zwei Einträgen dar. Im Diagramm werden diese Namen als Abstammungsverbindungen zwischen zwei Einträgen dargestellt, einschließlich aller Prozessknoten dazwischen.
Source
undTarget
sind beispielsweise Asset-Knoten, zwischen denen sich möglicherweise mehrere Prozessknoten befinden.Mit der Option Richtung wird der Teil des Datenflusses angegeben, der in der Liste angezeigt werden soll, bezogen auf das Stamm-Asset:
Upstream: Hier werden Lineage-Informationen für Einträge angezeigt, die Datenquellen für den ausgewählten Eintrag sind. Im Herkunftsgraphen sind das die Einträge, die links vom ausgewählten Eintrag angezeigt werden.
Downstream: Hier werden Lineage-Informationen für Einträge angezeigt, die den ausgewählten Eintrag verwenden oder von ihm abgeleitet sind. Im Herkunftsdiagramm sind das die Einträge, die rechts neben dem ausgewählten Eintrag angezeigt werden.
Mit der Option Zeitraum können Sie Lineage-Informationen nach dem Zeitpunkt filtern, zu dem die Lineage aufgetreten ist:
Beginn: Es wird die Lineage nach dem Startzeitpunkt angezeigt.
Ende: Es wird die Lineage angezeigt, die vor dem Endzeitpunkt aufgetreten ist.
Tiefe bezieht sich darauf, wie weit eine Quell- oder abgeleitete Ressource von der Stammressource entfernt ist. In der Listenansicht werden bis zu 1.000 Abstammungslinks mit einer maximalen Tiefe von 10 Abstammungslinks von der Stammressource angezeigt. Wenn es eine Abstammung außerhalb dieses Bereichs gibt, werden Sie benachrichtigt. Wenn Sie die Herkunft außerhalb dieses Bereichs sehen möchten, wählen Sie in der Listenansicht den Namen einer anderen Einheit aus.
Im Bereich Details werden Informationen zur Quelle des Links, zum Ziel des Links und zu allen Prozessen angezeigt, die diesen Link erstellt haben.
Sie können die in der Tabelle angezeigten Spalten anpassen und die Ergebnisse filtern. Sie können die Ergebnisse auch in eine CSV-Datei exportieren.
Automatisierte Verfolgung der Datenherkunft
Wenn Sie die Data Lineage API aktivieren, Google Cloud beginnen Systeme, die die Datenherkunft unterstützen, mit der Meldung ihrer Datenbewegungen. Jedes integrierte System kann Herkunftsinformationen für einen anderen Bereich von Datenquellen senden. Weitere Informationen zu den einzelnen unterstützten Produkten finden Sie in den folgenden Abschnitten.
BigQuery
Wenn Sie die Herkunft der Daten in Ihrem BigQuery-Projekt aktivieren, zeichnet Dataplex Universal Catalog automatisch die Herkunftsinformationen für Folgendes auf:
Neue Tabellen, die durch die folgenden BigQuery-Jobs erstellt werden:
- Kopierjobs
- Ladejobs, bei denen der Cloud Storage-URI verwendet wird, um Daten in einem beliebigen zulässigen Format aus Cloud Storage zu laden
- Abfragejobs, die die folgende DDL-Anweisung (Data Definition Language) in GoogleSQL verwenden:
Vorhandene Tabellen, die durch die Verwendung der folgenden DML-Anweisungen (Data Manipulation Language) in GoogleSQL erstellt wurden:
- SELECT in Bezug auf einen der aufgeführten Tabellentypen:
- INSERT SELECT
- MERGE
- AKTUALISIEREN
- LÖSCHEN
BigQuery-Kopier-, ‑Abfrage- und ‑Ladejobs werden als Prozesse dargestellt. Wenn Sie die Prozessdetails aufrufen möchten, klicken Sie im Herkunftsdiagramm auf .
Jeder Prozess enthält die BigQuery-job_id in der Liste attributes für den letzten BigQuery-Job.
Weitere Dienste
Die Datenherkunft unterstützt die Integration mit den folgendenGoogle Cloud -Diensten:
Datenherkunft für benutzerdefinierte Datenquellen
Mit der Data Lineage API können Sie Lineage-Informationen manuell für jede Datenquelle aufzeichnen, die von den integrierten Systemen nicht unterstützt wird.
In Dataplex Universal Catalog können Abstammungsdiagramme für manuell aufgezeichnete Abstammung erstellt werden, wenn Sie ein fullyQualifiedName
verwenden, das mit den vollständig qualifizierten Namen vorhandener Dataplex Universal Catalog-Einträge übereinstimmt. Wenn Sie den Datenursprung für eine benutzerdefinierte Datenquelle aufzeichnen möchten, erstellen Sie zuerst einen benutzerdefinierten Eintrag.
Jeder Prozess für eine benutzerdefinierte Datenquelle kann den Schlüssel sql
in der Attributliste enthalten. Der Wert eines solchen Schlüssels wird verwendet, um die Code-Hervorhebung im Detailbereich des Datenherkunftsgraphen zu rendern. Die SQL-Anweisung wird so angezeigt, wie sie angegeben wurde. Der Nutzer ist dafür verantwortlich, vertrauliche Informationen herauszufiltern. Beim Schlüsselnamen sql
wird zwischen Groß- und Kleinschreibung unterschieden.
OpenLineage
Wenn Sie OpenLineage bereits verwenden, um Informationen zum Datenursprung aus anderen Datenquellen zu erfassen, können Sie OpenLineage-Ereignisse in Dataplex Universal Catalog importieren und in der Google Cloud Konsole anzeigen. Weitere Informationen finden Sie unter Mit OpenLineage integrieren.
Beschränkungen
- Alle Informationen zur Herkunft werden nur 30 Tage lang im System aufbewahrt.
- Die Informationen zur Datenherkunft bleiben erhalten, nachdem Sie die zugehörige Datenquelle entfernt haben. Wenn Sie also eine BigQuery-Tabelle und den zugehörigen Dataplex Universal Catalog-Eintrag entfernen, können Sie das Lineage für diese Tabelle bis zu 30 Tage lang weiterhin über die API lesen.
Auf Datenherkunft zugreifen
Weitere Informationen zum Zugriff auf die Datenherkunft finden Sie unter Datenherkunft mit Google Cloud -Systemen verwenden und in der Data Lineage API.
Preise
Für die Datenherkunft wird im Dataplex Universal Catalog die Premium-Verarbeitungs-SKU verwendet. Weitere Informationen finden Sie unter Preise.
Wenn Sie die Gebühren für die Datenherkunft von anderen Gebühren in der Premium-Verarbeitungs-SKU für den Dataplex Universal Catalog trennen möchten, verwenden Sie im Cloud Billing-Bericht das Label
goog-dataplex-workload-type
mit dem WertLINEAGE
.Wenn Sie die Data Lineage API
Origin
sourceType
mit einem anderen Wert alsCUSTOM
aufrufen, fallen zusätzliche Kosten an.
Nächste Schritte
Informationen zum Nachverfolgen des Datenursprungs für BigQuery-Tabellenkopien und ‑Abfragejobs
Informationen zur Verwendung der Datenherkunft mit Google Cloud Systemen
Administrativen Informationen finden Sie unter Überlegungen zur Herkunft und Audit-Logging zur Datenherkunft.