Datenprofilerstellung

Mit der Datenprofilerstellung in Dataplex Universal Catalog können Sie allgemeine statistische Merkmale der Spalten in Ihren BigQuery-Tabellen identifizieren. Anhand dieser Informationen können Sie Ihre Daten besser verstehen und analysieren.

Informationen wie typische Datenwerte, Datenverteilung und Anzahl der Nullwerte können die Analyse beschleunigen. In Kombination mit der Datenklassifizierung können mit der Datenprofilerstellung Datenklassen oder vertrauliche Informationen erkannt werden, die wiederum Zugriffssteuerungsrichtlinien ermöglichen.

Dataplex Universal Catalog verwendet diese Informationen auch, um Regeln für Datenqualitätsprüfungen zu empfehlen.

Konzeptionelles Modell

Mit Dataplex Universal Catalog können Sie das Profil Ihrer Daten besser nachvollziehen, indem Sie einen Datenprofilscan erstellen.

Das folgende Diagramm zeigt, wie Dataplex Universal Catalog Daten scannt, um statistische Merkmale zu erfassen.

Bei einem Datenprofilscan werden Tabellendaten analysiert, um statistische Merkmale zu ermitteln.

Ein Datenprofilscan ist einer BigQuery-Tabelle zugeordnet und scannt die Tabelle, um die Datenprofilergebnisse zu generieren. Ein Datenprofilscan unterstützt mehrere Konfigurationsoptionen.

Konfigurationsoptionen

In diesem Abschnitt werden die Konfigurationsoptionen beschrieben, die für das Ausführen von Datenprofilerstellungsscans verfügbar sind.

Planungsoptionen

Sie können einen Datenprofilscan mit einer definierten Häufigkeit oder bei Bedarf über die API oder die Google Cloud -Konsole planen.

Umfang

Im Rahmen der Spezifikation eines Datenprofilierungsscans können Sie den Umfang eines Jobs als eine der folgenden Optionen angeben:

  • Vollständige Tabelle: Die gesamte Tabelle wird beim Scan zur Datenprofilerstellung gescannt. Stichproben, Zeilenfilter und Spaltenfilter werden auf die gesamte Tabelle angewendet, bevor die Profiling-Statistiken berechnet werden.

  • Inkrementell: Die von Ihnen angegebenen inkrementellen Daten werden im Datenprofilscan gescannt. Geben Sie in der Tabelle eine Date- oder Timestamp-Spalte an, die als Inkrement verwendet werden soll. Normalerweise ist das die Spalte, nach der die Tabelle partitioniert wird. Stichproben, Zeilenfilter und Spaltenfilter werden auf die inkrementellen Daten angewendet, bevor die Profiling-Statistiken berechnet werden.

Daten filtern

Sie können Daten, die für die Profilerstellung gescannt werden sollen, mit Zeilen- und Spaltenfiltern filtern. Mithilfe von Filtern können Sie die Ausführungszeit und die Kosten reduzieren und sensible und unnütze Daten ausschließen.

  • Zeilenfilter: Mit Zeilenfiltern können Sie sich auf Daten innerhalb eines bestimmten Zeitraums oder aus einem bestimmten Segment, z. B. einer Region, konzentrieren. Sie können beispielsweise Daten mit einem Zeitstempel vor einem bestimmten Datum herausfiltern.

  • Spaltenfilter: Mit Spaltenfiltern können Sie bestimmte Spalten in Ihre Tabelle ein- und ausschließen, um den Datenprofilscan auszuführen.

Beispieldaten

Mit Dataplex Universal Catalog können Sie einen Prozentsatz der Datensätze aus Ihren Daten angeben, die für einen Datenprofilerstellungsscan verwendet werden sollen. Wenn Sie Datenprofilierungsscans für eine kleinere Stichprobe von Daten erstellen, können Sie die Ausführungszeit und die Kosten für das Abfragen des gesamten Datasets reduzieren.

Mehrere Scans zur Datenprofilerstellung

Mit Dataplex Universal Catalog können Sie mehrere Datenprofilscans gleichzeitig über die Google Cloud Konsole erstellen. Sie können bis zu 100 Tabellen aus einem Dataset auswählen und für jedes Dataset einen Datenprofilierungsscan erstellen. Weitere Informationen

Scanergebnisse in BigQuery-Tabelle exportieren

Sie können die Scanergebnisse des Datenprofils zur weiteren Analyse in eine BigQuery-Tabelle exportieren. Wenn Sie Berichte anpassen möchten, können Sie die Daten aus der BigQuery-Tabelle mit einem Looker-Dashboard verbinden. Sie können einen aggregierten Bericht erstellen, indem Sie dieselbe Ergebnistabelle für mehrere Scans verwenden.

Ergebnisse der Datenprofilerstellung

Die Ergebnisse der Datenprofilerstellung enthalten die folgenden Werte:

Spaltentyp Ergebnisse der Datenprofilerstellung
Numerische Spalte
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen Werte.
  • Die zehn häufigsten Werte in der Spalte. Sie kann auch kleiner als 10 sein, wenn die Anzahl der eindeutigen Werte in der Spalte kleiner als 10 ist (Nullwerte werden nicht berücksichtigt). Für jeden dieser häufigsten Werte wird der Prozentsatz des Vorkommens in den Daten angezeigt, die im aktuellen Scan gescannt wurden.
  • Mittelwert, Standardabweichung, Mindestwert, ungefähres unteres Quartil, ungefähres Median, ungefähres oberes Quartil und Höchstwert.
String-Spalte
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen Werte.
  • Die zehn häufigsten Werte in der Spalte. Das können auch weniger als zehn sein, wenn die Anzahl der eindeutigen Werte in der Spalte unter zehn liegt.
  • Durchschnittliche, minimale und maximale Länge des Strings.
Andere nicht verschachtelte Spalten (Datum, Uhrzeit, Zeitstempel, binär usw.)
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen Werte.
  • Die zehn häufigsten Werte in der Spalte. Das können auch weniger als zehn sein, wenn die Anzahl der eindeutigen Werte in der Spalte unter zehn liegt.
Alle anderen Spalten mit verschachtelten oder komplexen Datentypen (z. B. „Record“, „Array“, „JSON“) oder Spalten mit dem Modus repeated.
  • Prozentsatz der Nullwerte.

Die Ergebnisse enthalten die Anzahl der Datensätze, die bei jeder Ausführung gescannt wurden.

Berichterstellung und Überwachung

Sie können die Ergebnisse der Datenprofilerstellung mit den folgenden Berichten und Methoden überwachen und analysieren:

  • Berichte, die mit der Quelltabelle auf den Seiten „BigQuery Universal Catalog“ und „Dataplex Universal Catalog“ veröffentlicht wurden

    Wenn Sie einen Scan zur Datenprofilerstellung so konfiguriert haben, dass die Ergebnisse in derGoogle Cloud -Konsole auf den Seiten für BigQuery und Dataplex Universal Catalog veröffentlicht werden, können Sie die neuesten Ergebnisse des Scans zur Datenprofilerstellung auf diesen Seiten auf dem Tab Datenprofil in jedem Projekt ansehen.

    Veröffentlichte Berichte.

  • Verlauf der Berichte pro Job in Dataplex Universal Catalog

    Auf der Seite Profil von Dataplex Universal Catalog können Sie die detaillierten Berichte für die neuesten und bisherigen Jobs aufrufen. Dazu gehören Profilinformationen auf Spaltenebene und die verwendete Konfiguration.

    Verlaufsbericht pro Job.

  • Tab „Analyse“

    Auf der Seite Profil des Dataplex Universal Catalog können Sie auf dem Tab Analyse die Trends für eine bestimmte Statistik einer Spalte über mehrere Profiljobs hinweg ansehen. Wenn Sie beispielsweise einen inkrementellen Scan haben, können Sie sehen, wie sich der Durchschnitt eines Werts im Laufe der Zeit entwickelt hat.

    Tab „Analyse“

  • Eigene Dashboards oder Analysen erstellen

    Wenn Sie einen Datenprofilscan so konfiguriert haben, dass die Ergebnisse in eine BigQuery-Tabelle exportiert oder gespeichert werden, können Sie mit Tools wie Looker Studio eigene Dashboards erstellen.

Beschränkungen

  • Die Datenprofilerstellung wird für BigQuery-Tabellen mit allen Spaltentypen außer BIGNUMERIC unterstützt. Ein Scan, der für eine Tabelle mit einer BIGNUMERIC-Spalte erstellt wurde, führt zu einem Validierungsfehler und wird nicht erfolgreich erstellt.

Preise

  • Für die Datenprofilerstellung im Dataplex Universal Catalog wird die Premium-Verarbeitungs-SKU verwendet. Weitere Informationen finden Sie unter Preise.

  • Die Premium-Verarbeitung des Dataplex Universal Catalog für die Datenprofilerstellung wird pro Sekunde mit einem Minimum von einer Minute abgerechnet.

  • Für fehlgeschlagene Profilscans fallen keine Kosten an.

  • Die Kosten hängen von der Anzahl der Zeilen und Spalten, der Menge der gescannten Daten, den Partitionierungs- und Clustering-Einstellungen für die Tabelle sowie der Häufigkeit des Scans ab.

  • Es gibt mehrere Möglichkeiten, die Kosten für Datenprofilscans zu senken:

    • Probenahme
    • Inkrementelle Scans
    • Spaltenfilterung
    • Zeilenfilterung
  • Wenn Sie die Gebühren für das Datenprofiling von anderen Gebühren in der Premium-Verarbeitungs-SKU für Dataplex Universal Catalog trennen möchten, verwenden Sie im Cloud-Abrechnungsbericht das Label goog-dataplex-workload-type mit dem Wert DATA_PROFILE.

  • Verwenden Sie die folgenden Labels, um zusammengefasste Gebühren zu filtern:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Nächste Schritte