Nach Problemen mit der Datenqualität suchen

In diesem Dokument wird erläutert, wie Sie BigQuery und den Dataplex Universal Catalog zusammen verwenden, um sicherzustellen, dass die Daten Ihren Qualitätserwartungen entsprechen. Mit der automatischen Datenqualität von Dataplex Universal Catalog können Sie die Qualität der Daten in Ihren BigQuery-Tabellen definieren und messen. Sie können das Scannen von Daten automatisieren, Daten anhand definierter Regeln validieren und Benachrichtigungen protokollieren, wenn Ihre Daten nicht den Qualitätsanforderungen entsprechen.

Weitere Informationen zur automatischen Datenqualität finden Sie unter Automatische Datenqualität.

Hinweise

  • Zum Erstellen und Ändern von Scans in Ihrem Projekt: Aktivieren Sie die Dataplex API.

    Dataplex API aktivieren

  • Erstellen Sie für projektübergreifende Scans eine Dataplex Universal Catalog-Dienst-ID mit dem Befehl gcloud beta services identity create. Wenn keine Dataplex Universal Catalog-Dienst-ID vorhanden ist, gibt dieser Befehl eine neue ID zurück. Wenn bereits eine Dienst-ID vorhanden ist, gibt der Befehl die vorhandene Kennzeichnung zurück. Mit diesem Befehl werden Sie möglicherweise aufgefordert, die Komponente gcloud CLI Beta-Befehle zu installieren.

    gcloud beta services identity create
    --service=dataplex.googleapis.com
    

Erforderliche Rollen

Bitten Sie Ihren Administrator, den entsprechenden Kontohauptkonten die folgenden Rollen je nach Anwendungsfall zuzuweisen. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

BigQuery-Rollen

  • BigQuery-Data Viewer für eine Tabelle, um die Ergebnisse dieser Tabelle zu scannen, ohne die Ergebnisse zu veröffentlichen.
  • So veröffentlichen Sie Scanergebnisse als Dataplex Universal Catalog-Metadaten: BigQuery Data Editor für die Tabelle und die Berechtigung dataplex.entryGroups.useDataQualityScorecardAspect für die @bigquery-Eintragsgruppe am selben Speicherort wie die Tabelle. Alternativ müssen Sie die Rolle Dataplex Catalog Editor für die @bigquery-Eintragsgruppe am selben Speicherort wie die Tabelle haben.
  • Wenn sich die BigQuery-Tabelle und der Datenqualitätsscan in verschiedenen Projekten befinden, müssen Sie dem Dataplex Universal Catalog-Dienstkonto die Leseberechtigung bigquery.tables.getData (oder die Rolle BigQuery Data Viewer) für die entsprechende BigQuery-Tabelle erteilen. Informationen zum Abrufen der Dienstidentität für ein Dienstkonto finden Sie unter Vorbereitung.
  • Wenn Sie eine externe BigQuery-Tabelle aus Cloud Storage scannen, weisen Sie dem Dataplex Universal Catalog-Dienstkonto die Cloud Storage-Rolle (roles/storage.objectViewer) zu.

Rollen für Dataplex Universal Catalog

  • Dataplex DataScan-Administrator auf Projektebene, um Scans zu erstellen.
  • Dataplex DataScan Editor bei einem Scan: Zum Bearbeiten aller Attribute eines Scans (außer Berechtigungen) führen Sie den Scan aus und löschen den Scan.
  • Dataplex DataScan DataViewer für einen Scan, um die Ergebnisse eines Scans aufzurufen.

Diese Rollen enthalten die Berechtigungen, die für die vorherigen Anwendungsfälle erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um verschiedene Aspekte der Datenqualitätsscans zu verwenden:

  • So ändern Sie die Konfiguration eines Datenscans: dataplex.datascans.update – für die DataScan-Ressource
  • So ändern Sie die Richtlinie eines Datenscans: dataplex.datascans.setIamPolicy – für die Datascan-Ressource
  • So erstellen Sie einen Datenscan für eine BigQuery-Tabelle: bigquery.tables.getData – Die zu scannende Tabelle
  • So erstellen Sie Datenscans in einem Projekt: dataplex.datascans.create – für das Projekt
  • So löschen Sie einen Datenscan: dataplex.datascans.delete – für die DataScan-Ressource
  • So exportieren Sie die Datenscanergebnisse in ein BigQuery-Dataset: bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData – das Ziel-Dataset
  • Wenn Sie die Ergebnisse eines Datenscans als Dataplex Universal Catalog-Metadaten veröffentlichen möchten, benötigen Sie eine der folgenden Berechtigungsgruppen:

    • bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData, bigquery.tables.delete – in der Zieltabelle. Außerdem: dataplex.entryGroups.useDataQualityScorecardAspect für die Eintragsgruppe @bigquery
    • dataplex.entries.update und dataplex.entryGroups.useDataQualityScorecardAspect – für die Eintragsgruppe @bigquery
  • So führen Sie einen Datenscan aus: dataplex.datascans.run – für die DataScan-Ressource
  • So scannen Sie eine externe Tabelle aus Cloud Storage: storage.buckets.get, storage.objects.get: der Bucket mit den zu scannenden Tabellen
  • So rufen Sie die Ergebnisse eines Datenscans auf: dataplex.datascans.getData – für die Datenscan-Ressource
  • So rufen Sie die Ergebnisse eines Datenscans auf: dataplex.datascans.get für die DataScan-Ressource
  • So zeigen Sie die Ergebnisse eines Datenscans an: dataplex.datascans.list – für die Datascan-Ressource

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Datenqualitätsscan erstellen

  1. Rufen Sie in der Google Cloud Console die Seite "BigQuery" auf.

    BigQuery aufrufen

  2. Klicken Sie im Bereich Explorer auf eine Tabelle für den Datenqualitätsscan.

  3. Klicken Sie auf den Tab Datenqualität.

  4. Klicken Sie auf Datenqualitätsscan > Neuen Scan erstellen.

  5. Optional: Bearbeiten Sie die folgenden Werte:

    • Anzeigename: Der änderbare Name der Ressource in der Console.
    • ID: Eine eindeutige Kennung für den Scan. Nachdem der Scan erstellt wurde, kann er nicht mehr geändert werden.
    • Beschreibung: Eine Beschreibung des Scans.
    • Region: Definiert die Region, in der der Datenscan verarbeitet wird.
    • Umfang: Der Datenbereich, der zum Scannen verfügbar ist. Wählen Sie entweder Inkrementell oder Gesamte Daten aus. Wenn Sie Inkrementell auswählen, empfehlen wir, die Spalte DATE oder TIMESTAMP aufzunehmen, die linear erhöht wird. Diese Spalte kann zur Identifizierung neuer Einträge verwendet werden. Für Tabellen, die nach Spalten des Typs DATE oder TIMESTAMP partitioniert sind, wird empfohlen, die Partitionsspalte als Zeitstempelfeld zu verwenden.
    • Filter: Filter, die auf die Daten angewendet werden sollen, bevor der Scan ausgeführt wird. Klicken Sie zum Filtern von Zeilen das Kästchen Zeilen filtern an und geben Sie einen gültigen SQL-Ausdruck in das Eingabetextfeld ein. Der Ausdruck muss in der BigQuery-Standard-SQL-Syntax enthalten sein und kann in einer WHERE-Klausel verwendet werden.
    • Probegröße: Der Prozentsatz der Daten, die Sie abrufen möchten. Bei inkrementellen Datenscans wird nur die letzte Stichprobe erfasst.
    • Ergebnisse in BigQuery und Dataplex Catalog veröffentlichen:Mit dieser Option werden die neuesten Ergebnisse des Datenqualitätsscans als Dataplex Universal Catalog-Metadaten für den Eintrag gespeichert, der die Quelltabelle darstellt. Sie können die Ergebnisse in BigQuery auf dem Tab Datenqualität für die Quelltabelle aufrufen.
    • Zeitplan: entweder On-Demand (Standard) oder Wiederholung. Wenn Sie Wiederholen auswählen, geben Sie die Häufigkeit des geplanten Scans mit Täglich, Wöchentlich, Monatlich oder Benutzerdefiniert an. Bei der Verwendung von Custom wird das Cron-Zeitformat verwendet, um den Zeitplan anzugeben. Ein Scan, der am zweiten Dienstag des Monats um 1:00 Uhr ausgeführt wird, sieht beispielsweise so aus: 0 1 8-14 * 2.
  6. Klicken Sie auf Weiter, um den Bereich mit den Einstellungen für die Datenqualitätsregeln aufzurufen.

  7. Klicken Sie auf Regeln hinzufügen und fügen Sie gegebenenfalls eine oder mehrere der folgenden Regeln hinzu. Regeln können auch mit Entfernen gelöscht werden.

    • Profilbasierte Empfehlungen
    • Integrierte Regeltypen
    • Prüfregel für SQL-Zeilen
    • Prüfregel für SQL-Aggregate
  8. Optional: Wenn Sie den Bereich öffnen möchten, um weitere optionale Einstellungen anzuzeigen, klicken Sie auf Weiter und bearbeiten Sie die folgenden Werte:

    • Scanergebnisse in BigQuery-Tabelle exportieren: Wählen Sie ein BigQuery-Dataset und eine Tabelle aus, um die Ergebnisse des Qualitätsscans zu speichern. Wenn ein Dataset, aber keine Tabelle definiert ist, erstellt Dataplex Universal Catalog eine Tabelle für Sie. Für Tabellen, die in dieser Weise erstellt werden, können Speicherkosten anfallen.
    • Labels: Fügen Sie ein Label zum Scan hinzu.
  9. Klicken Sie je nach Ihren Anforderungen auf eine der folgenden Schaltflächen:

    • Klicken Sie auf Erstellen, um die Scaneinstellungen zu speichern.
    • Klicken Sie auf Ausführen, um den Scan zu speichern und auszuführen.

Berechtigungen für Scans zur Datenqualität verwalten

So ändern Sie die Zugriffsberechtigungen vorhandener Scans für die Qualität:

  1. Wechseln Sie zur BigQuery-Seite.

    BigQuery aufrufen

  2. Wählen Sie im Bereich Explorer eine Tabelle für den Datenqualitätsscan aus.

  3. Klicken Sie auf den Tab Datenqualität.

  4. Klicken Sie auf Datenqualitätsscan > Scanberechtigungen verwalten. Dadurch wird der Dataplex Universal Catalog in einem neuen Tab geöffnet.

  5. Klicken Sie auf den Tab Berechtigungen.

    • Klicken Sie zum Gewähren des Zugriffs auf ein Hauptkonto auf Zugriff gewähren und weisen Sie dem zugehörigen Hauptkonto Dataplex DataScan DataViewer zu.
    • Klicken Sie zum Entfernen des Zugriffs von einem Hauptkonto auf Zugriff entfernen und entfernen Sie Dataplex DataScan DataViewer aus dem zugehörigen Hauptkonto.

Vorhandenen Scan zur Datenqualität bearbeiten

  1. Rufen Sie in der Google Cloud Console die Seite "BigQuery" auf.

    BigQuery aufrufen

  2. Wählen Sie im Bereich Explorer eine Tabelle für den Datenqualitätsscan aus.

  3. Klicken Sie auf Datenqualitätsscan > Scankonfiguration bearbeiten.

Dadurch werden die Einstellungen für den Datenqualitätsscan geöffnet, die für zukünftige Scans geändert und gespeichert werden können.

Ergebnisse des Datenqualitätsscans ansehen

Es gibt mehrere Möglichkeiten, die Ergebnisse des Scans für die Datenqualität anzuzeigen. Wählen Sie die Option aus, die für Ihre Bedürfnisse am besten geeignet ist.

Veröffentlichte Ergebnisse ansehen

  1. Rufen Sie in der Google Cloud Console die Seite "BigQuery" auf.

    BigQuery aufrufen

  2. Wählen Sie im Bereich Explorer eine Tabelle für den Datenqualitätsscan aus.

  3. Klicken Sie auf den Tab Datenqualität.

Die zuletzt veröffentlichten Ergebnisse werden in dieser Ansicht angezeigt.

Historische Scanergebnisse ansehen

  1. Rufen Sie in der Google Cloud Console die Seite "BigQuery" auf.

    BigQuery aufrufen

  2. Wählen Sie im Bereich Explorer eine Tabelle für den Datenqualitätsscan aus.

  3. Klicken Sie auf den Tab Datenqualität.

  4. Klicken Sie auf Datenqualitätsscan > Historische Ergebnisse ansehen.

Alle Datenqualitätsscans für eine Tabelle ansehen

So öffnen Sie Dataplex Universal Catalog mit einem Scanverlauf für eine bestimmte Tabelle:

  1. Rufen Sie in der Google Cloud Console die Seite "BigQuery" auf.

    BigQuery aufrufen

  2. Wählen Sie im Bereich Explorer eine Tabelle für den Datenqualitätsscan aus.

  3. Klicken Sie auf Datenqualitätsscan > Alle Scans ansehen.