Datenherkunft für eine BigQuery-Tabelle nachverfolgen

Mit der Datenherkunft können Sie nachvollziehen, wie Daten sich durch Ihre Systeme bewegen: woher sie stammen, wohin sie übertragen werden und welche Transformationen auf sie angewendet werden.

So beginnen Sie mit dem Erfassen von Datenherkunftsinformationen für BigQuery-Kopier- und ‑Abfragejobs:

  1. Kopieren Sie zwei Tabellen aus einem öffentlich verfügbaren new_york_taxi_trips-Dataset.

  2. Kombinieren Sie die Gesamtzahl der Taxifahrten aus beiden Tabellen in einer neuen Tabelle.

  3. Sie können sich ein Lineage-Visualisierungsdiagramm für alle drei Vorgänge ansehen.

Hinweise

Projekt einrichten:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex Universal Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex Universal Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

  8. Erforderliche Rollen

    Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Diagrammen zur Herkunftsvisualisierung benötigen:

    Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

    Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Öffentliches Dataset zum Projekt hinzufügen

  1. Rufen Sie in der Google Cloud Console die Seite "BigQuery" auf.

    BigQuery aufrufen

  2. Klicken Sie im Bereich Explorer auf Hinzufügen.

  3. Suchen Sie im Bereich Hinzufügen nach Public datasets und wählen Sie das Ergebnis Öffentliche Datasets aus.

  4. Suchen Sie im Bereich Marketplace nach NYC TLC Trips und klicken Sie auf das Ergebnis NYC TLC Trips.

  5. Klicken Sie auf Dataset aufrufen.

Dadurch wird das Projekt des öffentlichen Datasets als Referenz hinzugefügt, die Sie im Bereich Explorer aufrufen können. Im Detailbereich werden die Dataset-Informationen angezeigt, einschließlich Informationen wie Dataset-ID, Speicherort der Daten und Zuletzt geändert.

Dataset in Ihrem Projekt erstellen

  1. Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie das Dataset erstellen möchten.

  2. Klicken Sie auf Aktionen und dann auf Dataset erstellen.

  3. Geben Sie auf der Seite Dataset erstellen im Feld Dataset-ID Folgendes ein: data_lineage_demo. Übernehmen Sie für alle anderen Felder die Standardwerte.

  4. Klicken Sie auf Dataset erstellen.

  5. Klicken Sie im Bereich Explorer auf das neu hinzugefügte data_lineage_demo.

Im Detailbereich werden die Dataset-Informationen angezeigt.

Zwei öffentlich zugängliche Tabellen in Ihr Dataset kopieren

  1. Öffnen Sie einen Abfrageeditor: Klicken Sie im Detailbereich neben dem Tab data_lineage_demo auf (Neue Abfrage erstellen). Mit diesem Schritt wird ein Tab mit dem Namen Untitled erstellt.

  2. Kopieren Sie im Abfrageeditor die erste Tabelle, indem Sie die folgende Abfrage eingeben. Ersetzen Sie PROJECT_ID durch die Kennung Ihres Projekts.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Klicken Sie auf Ausführen. In diesem Schritt wird die erste Tabelle mit dem Namen nyc_green_trips_2021 erstellt.

  4. Klicken Sie im Bereich Abfrageergebnisse auf Tabelle aufrufen. In diesem Schritt wird der Inhalt der ersten Tabelle angezeigt.

  5. Kopieren Sie im Abfrageeditor die zweite Tabelle, indem Sie die vorherige Abfrage durch die folgende Abfrage ersetzen. Ersetzen Sie PROJECT_ID durch die Kennung Ihres Projekts.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Klicken Sie auf Ausführen. In diesem Schritt wird die zweite Tabelle mit dem Namen nyc_green_trips_2022 erstellt.

  7. Klicken Sie im Bereich Abfrageergebnisse auf Tabelle aufrufen. In diesem Schritt wird der Inhalt der zweiten Tabelle angezeigt.

Daten in einer neuen Tabelle zusammenfassen

  1. Geben Sie im Abfrageeditor die folgende Abfrage ein. Ersetzen Sie PROJECT_ID durch die ID Ihres Projekts.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Klicken Sie auf Ausführen. In diesem Schritt wird eine kombinierte Tabelle mit dem Namen total_green_trips_22_21 erstellt.

  3. Klicken Sie im Bereich Abfrageergebnisse auf Tabelle aufrufen. In diesem Schritt wird die zusammengeführte Tabelle angezeigt.

Lineage-Diagramm in Dataplex Universal Catalog ansehen

  1. Rufen Sie in der Google Cloud -Console die Seite Suche des Dataplex Universal Catalog auf.

    Zur Suche

  2. Wählen Sie unter Suchplattform auswählen den Suchmodus Dataplex Catalog aus.

  3. Geben Sie total_green_trips_22_21 in das Feld Suche ein und klicken Sie auf Suchen.

  4. Klicken Sie in der Ergebnisliste auf total_green_trips_22_21. In diesem Schritt wird der Tab Details der BigQuery-Tabelle angezeigt.

  5. Klicken Sie auf den Tab Herkunft.

Die Tabelle „total_green_trips_22_21“ mit dem Detailbereich, der unten angedockt ist.
Abbildung 1: Data Lineage mit Knotendetails

Im Lineage-Diagramm stellt jeder rechteckige Knoten eine Tabelle dar, entweder eine Original-, eine kopierte oder eine kombinierte Tabelle. In diesem Fall können Sie folgende Aktionen ausführen:

  • Wenn Sie die Quelle einer Tabelle ein- oder ausblenden möchten, klicken Sie auf + (Maximieren) oder (Minimieren).

  • Klicken Sie auf einen Knoten, um Tabelleninformationen aufzurufen. In diesem Schritt wird ein Bereich mit Knotendetails angezeigt.

  • Klicken Sie auf Details zum Herkunftsprozess ansehen, um Prozessinformationen aufzurufen. In diesem Schritt wird der Bereich Details für den Prozess angezeigt, in dem der Job zu sehen ist, mit dem eine Quelltabelle in eine Zieltabelle umgewandelt wurde.

Die Zwischentabelle „nyc_green_trips_2021“ mit dem Detailbereich, der unten angedockt ist.
Abbildung 2. Data Lineage mit Prozessdetails

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:

Projekt löschen

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Dataset löschen

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Suchen Sie im Bereich Explorer nach dem von Ihnen erstellten Dataset data_lineage_demo.

  3. Klicken Sie mit der rechten Maustaste auf das Dataset und wählen Sie Löschen aus.

  4. Bestätigen Sie den Löschvorgang.

Nächste Schritte