Diese Seite wurde von der Cloud Translation API übersetzt.

Nach Problemen mit der Datenqualität suchen

In diesem Dokument wird erläutert, wie Sie BigQuery und Dataplex Universal Catalog zusammen verwenden, um sicherzustellen, dass die Daten Ihren Qualitätserwartungen entsprechen. Mit der automatischen Datenqualität von Dataplex Universal Catalog können Sie die Qualität der Daten in Ihren BigQuery-Tabellen definieren und messen. Sie können das Scannen von Daten automatisieren, Daten anhand definierter Regeln validieren und Benachrichtigungen protokollieren, wenn Ihre Daten nicht den Qualitätsanforderungen entsprechen.

Weitere Informationen zur automatischen Datenqualität finden Sie unter Automatische Datenqualität – Übersicht.

Hinweise

Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API
Optional: Wenn Sie möchten, dass Dataplex Universal Catalog Empfehlungen für Datenqualitätsregeln basierend auf den Ergebnissen eines Datenprofilscans generiert, erstellen und führen Sie den Datenprofilscan aus.

Erforderliche Rollen

Wenn Sie einen Datenqualitätsscan für eine BigQuery-Tabelle ausführen möchten, benötigen Sie die Berechtigung zum Lesen der BigQuery-Tabelle und die Berechtigung zum Erstellen eines BigQuery-Jobs in dem Projekt, das zum Scannen der Tabelle verwendet wird.

Hinweis :Dataplex Universal Catalog erstellt keinen BigQuery-Job in Ihrem Projekt. Sie benötigen diese Berechtigung jedoch, um einen DryRun-Job zu erstellen, mit dem die Berechtigungen für die Tabelle geprüft werden.
Wenn sich die BigQuery-Tabelle und der Datenqualitätsscan in verschiedenen Projekten befinden, müssen Sie dem Dataplex Universal Catalog-Dienstkonto des Projekts, das den Datenqualitätsscan enthält, die Leseberechtigung für die entsprechende BigQuery-Tabelle erteilen.

Hinweis: Wenn Sie noch keine Datenqualitäts- oder Datenprofilscans erstellt haben oder das Projekt keinen Dataplex Universal Catalog-Lake enthält, erstellen Sie eine Dienstkennung, indem Sie Folgendes ausführen: gcloud beta services identity create --service=dataplex.googleapis.com. Dieser Befehl gibt eine Dataplex Universal Catalog-Dienstkennung zurück, sofern sie vorhanden ist.
Wenn sich die Datenqualitätsregeln auf zusätzliche Tabellen beziehen, muss das Dienstkonto des Scanprojekts Leseberechtigungen für dieselben Tabellen haben.
Wenn Sie die Berechtigungen zum Exportieren der Scanergebnisse in eine BigQuery-Tabelle erhalten möchten, bitten Sie Ihren Administrator, dem Dataplex Universal Catalog-Dienstkonto die IAM-Rolle „BigQuery Data Editor“ (roles/bigquery.dataEditor) für das Ergebnis-Dataset und die Ergebnistabelle zuzuweisen. Dadurch werden die folgenden Berechtigungen gewährt:
- bigquery.datasets.get
- bigquery.tables.create
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.tables.update
- bigquery.tables.updateData
Wenn die BigQuery-Daten in einem Dataplex Universal Catalog-Lake organisiert sind, weisen Sie dem Dataplex Universal Catalog-Dienstkonto die IAM-Rollen „Dataplex Metadata Reader“ (roles/dataplex.metadataReader) und „Dataplex Viewer“ (roles/dataplex.viewer) zu. Alternativ benötigen Sie alle der folgenden Berechtigungen:
- dataplex.lakes.list
- dataplex.lakes.get
- dataplex.zones.list
- dataplex.zones.get
- dataplex.entities.list
- dataplex.entities.get
- dataplex.operations.get
Wenn Sie eine externe BigQuery-Tabelle aus Cloud Storage scannen, weisen Sie dem Dataplex Universal Catalog-Dienstkonto die Rolle „Storage-Objekt-Betrachter“ (roles/storage.objectViewer) für den Bucket zu. Alternativ können Sie dem Dataplex Universal Catalog-Dienstkonto die folgenden Berechtigungen zuweisen:
- storage.buckets.get
- storage.objects.get
Wenn Sie die Ergebnisse des Datenqualitätsscans als Dataplex Universal Catalog-Metadaten veröffentlichen möchten, benötigen Sie die IAM-Rolle „BigQuery Data Editor“ (roles/bigquery.dataEditor) für die Tabelle und die Berechtigung dataplex.entryGroups.useDataQualityScorecardAspect für die @bigquery-Eintragsgruppe am selben Ort wie die Tabelle. Alternativ muss Ihnen die Rolle „Dataplex Catalog Editor“ (roles/dataplex.catalogEditor) für die Eintragsgruppe @bigquery am selben Standort wie die Tabelle zugewiesen werden.

Alternativ benötigen Sie alle der folgenden Berechtigungen:
- bigquery.tables.update – auf dem Tisch
- dataplex.entryGroups.useDataQualityScorecardAspect – in der Eintragsgruppe @bigquery
Alternativ benötigen Sie alle der folgenden Berechtigungen:
- dataplex.entries.update – in der Eintragsgruppe @bigquery
- dataplex.entryGroups.useDataQualityScorecardAspect – in der Eintragsgruppe @bigquery
Wenn Sie auf Spalten zugreifen müssen, die durch BigQuery-Zugriffsrichtlinien auf Spaltenebene geschützt sind, weisen Sie dem Dataplex Universal Catalog-Dienstkonto Berechtigungen für diese Spalten zu. Zum Erstellen oder Aktualisieren von Datenscans sind ebenfalls Berechtigungen für die Spalten erforderlich.
Wenn für eine Tabelle BigQuery-Zugriffsrichtlinien auf Zeilenebene aktiviert sind, können Sie nur Zeilen scannen, die für das Dataplex Universal Catalog-Dienstkonto sichtbar sind. Die Zugriffsberechtigungen des einzelnen Nutzers werden bei Richtlinien auf Zeilenebene nicht berücksichtigt.

Erforderliche Rollen für die Datenprüfung

Wenn Sie die automatische Datenqualität verwenden möchten, bitten Sie Ihren Administrator, Ihnen eine der folgenden IAM-Rollen zuzuweisen:

Vollständiger Zugriff auf DataScan-Ressourcen: Dataplex-DataScan-Administrator (roles/dataplex.dataScanAdmin)
So erstellen Sie DataScan-Ressourcen: Dataplex DataScan Creator (roles/dataplex.dataScanCreator) für das Projekt
Schreibzugriff auf DataScan-Ressourcen: Dataplex-DataScan-Bearbeiter (roles/dataplex.dataScanEditor)
Lesezugriff auf DataScan-Ressourcen mit Ausnahme von Regeln und Ergebnissen: Dataplex DataScan-Betrachter (roles/dataplex.dataScanViewer)
Lesezugriff auf DataScan-Ressourcen, einschließlich Regeln und Ergebnissen: Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer)

In der folgenden Tabelle sind die DataScan-Berechtigungen aufgeführt:

Name der Berechtigung	Gewährt die Berechtigung für Folgendes:
`dataplex.datascans.create`	`DataScan` erstellen
`dataplex.datascans.delete`	`DataScan` löschen
`dataplex.datascans.get`	Betriebsmetadaten wie ID oder Zeitplan ansehen, aber keine Ergebnisse und Regeln
`dataplex.datascans.getData`	`DataScan`-Details ansehen, einschließlich Regeln und Ergebnissen
`dataplex.datascans.list`	`DataScan`s auflisten
`dataplex.datascans.run`	`DataScan` ausführen
`dataplex.datascans.update`	`DataScan`-Beschreibung aktualisieren
`dataplex.datascans.getIamPolicy`	Aktuelle IAM-Berechtigungen für den Scan ansehen
`dataplex.datascans.setIamPolicy`	IAM-Berechtigungen für den Scan festlegen

Datenqualitätsscan erstellen

Konsole

Rufen Sie in der Google Cloud Console auf der Seite Metadatenverwaltung von BigQuery den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf Datenqualitätsscan erstellen.
Füllen Sie im Fenster Scan definieren die folgenden Felder aus:
1. Optional: Geben Sie einen Anzeigenamen ein.
2. Geben Sie eine ID ein. Weitere Informationen finden Sie unter Konventionen für Ressourcennamen.
3. Optional: Geben Sie eine Beschreibung ein.
4. Klicken Sie im Feld Tabelle auf Durchsuchen. Wählen Sie die Tabelle aus, die gescannt werden soll, und klicken Sie dann auf Auswählen. Es werden nur Standard-BigQuery-Tabellen unterstützt.
  
  Wählen Sie für Tabellen in multiregionalen Datasets eine Region aus, in der der Datenscan erstellt werden soll.
  
  Wenn Sie die Tabellen durchsuchen möchten, die in Dataplex Universal Catalog-Lakes organisiert sind, klicken Sie auf In Dataplex-Lakes suchen.
5. Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
  - Wenn Sie Inkrementell auswählen, wählen Sie im Feld Spalte für Zeitstempel eine Spalte vom Typ DATE oder TIMESTAMP aus Ihrer BigQuery-Tabelle aus, die mit jedem neuen Eintrag zunimmt und zum Identifizieren neuer Einträge verwendet werden kann. Das kann eine Spalte sein, mit der die Tabelle partitioniert wird.
6. Wenn Sie Ihre Daten filtern möchten, aktivieren Sie das Kästchen Zeilen filtern. Geben Sie einen Zeilenfilter an, der aus einem gültigen SQL-Ausdruck besteht, der als Teil einer WHERE-Anweisung in GoogleSQL-Syntax verwendet werden kann. Beispiel: col1 >= 0 Der Filter kann eine Kombination aus mehreren Spaltenbedingungen sein. Beispiel: col1 >= 0 AND col2 < 10.
7. Wenn Sie die Stichprobenerhebung auf Ihre Daten anwenden möchten, wählen Sie in der Liste Stichprobengröße einen Prozentsatz für die Erhebung aus. Wählen Sie einen Prozentwert zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus. Wählen Sie bei größeren Datasets einen niedrigeren Prozentsatz für die Stichprobenerhebung aus. Wenn Sie beispielsweise für eine Tabelle mit einem Umfang von 1 PB einen Wert zwischen 0, 1% und 1, 0 % eingeben, werden beim Datenqualitäts-Scan 1–10 TB an Daten als Stichprobe erhoben. Bei Scans inkrementeller Daten wird die Stichprobe für den Datenqualitätsscan aus dem neuesten Inkrement erhoben.
8. Wenn Sie die Ergebnisse des Datenqualitätsscans als Dataplex Universal Catalog-Metadaten veröffentlichen möchten, aktivieren Sie das Kästchen Ergebnisse in BigQuery und Dataplex Catalog veröffentlichen.
  
  Sie können die neuesten Scanergebnisse auf den BigQuery- und Dataplex Universal Catalog-Seiten für die Quelltabelle auf dem Tab Datenqualität ansehen. Wie Sie Nutzern Zugriff auf die veröffentlichten Scanergebnisse gewähren, erfahren Sie im Abschnitt Zugriff auf Datenprofilscan-Ergebnisse gewähren in diesem Dokument.
9. Wählen Sie im Bereich Zeitplan eine der folgenden Optionen aus:
  - Wiederholen: Der Datenqualitätsscan wird nach einem Zeitplan ausgeführt: stündlich, täglich, wöchentlich, monatlich oder benutzerdefiniert. Geben Sie an, wie oft und zu welcher Uhrzeit der Scan ausgeführt werden soll. Wenn Sie „benutzerdefiniert“ auswählen, geben Sie den Zeitplan im Cron-Format an.
  - On-Demand: Führen Sie den Datenqualitätsscan bei Bedarf aus.
10. Klicken Sie auf Weiter.
Definieren Sie im Fenster Regeln für Datenqualität die Regeln, die für diesen Datenqualitätsscan konfiguriert werden sollen.
1. Klicken Sie auf Regeln hinzufügen und wählen Sie eine der folgenden Optionen aus.
  - Profilbasierte Empfehlungen: Erstellen Sie Regeln anhand von Empfehlungen, die auf einem vorhandenen Datenprofilscan basieren.
    1. Spalten auswählen: Wählen Sie die Spalten aus, für die Sie empfohlene Regeln erhalten möchten.
    2. Scanprojekt auswählen: Wenn sich der Datenprofilscan in einem anderen Projekt als dem Projekt befindet, in dem Sie den Datenqualitätsscan erstellen, wählen Sie das Projekt aus, aus dem Profilscans abgerufen werden sollen.
    3. Profilergebnisse auswählen: Wählen Sie ein oder mehrere Profilergebnisse aus und klicken Sie dann auf OK. Dadurch wird eine Liste mit vorgeschlagenen Regeln erstellt, die Sie als Ausgangspunkt verwenden können.
    4. Klicken Sie das Kästchen für die Regeln an, die Sie hinzufügen möchten, und dann auf Auswählen. Nach der Auswahl werden die Regeln Ihrer aktuellen Regelliste hinzugefügt. Anschließend können Sie die Regeln bearbeiten.
  - Integrierte Regeltypen: Erstellen Sie Regeln aus vordefinierten Regeln. Liste der vordefinierten Regeln
    1. Spalten auswählen: Wählen Sie die Spalten aus, für die Sie Regeln auswählen möchten.
    2. Regeltypen auswählen: Wählen Sie die Regeltypen aus, die Sie verwenden möchten, und klicken Sie dann auf OK. Die angezeigten Regeltypen hängen von den ausgewählten Spalten ab.
    3. Klicken Sie das Kästchen für die Regeln an, die Sie hinzufügen möchten, und dann auf Auswählen. Nach der Auswahl werden die Regeln Ihrer aktuellen Regelliste hinzugefügt. Anschließend können Sie die Regeln bearbeiten.
  - Prüfregel für SQL-Zeilen: Erstellen Sie eine benutzerdefinierte SQL-Regel, die auf jede Zeile angewendet wird.
    1. Wählen Sie unter Dimension eine Dimension aus.
    2. Wählen Sie unter Bestandene Mindestanzahl einen Prozentsatz der Datensätze aus, die die Prüfung bestehen müssen.
    3. Wählen Sie unter Spaltenname eine Spalte aus.
    4. Geben Sie im Feld SQL-Ausdruck angeben einen SQL-Ausdruck ein, der als boolescher Wert true (bestanden) oder false (nicht bestanden) ausgewertet wird. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen unter Regeln für die Datenqualität definieren.
    5. Klicken Sie auf Hinzufügen.
  - Prüfregel für SQL-Aggregate: Erstellen Sie eine benutzerdefinierte SQL-Regel für Tabellenbedingungen.
    1. Wählen Sie unter Dimension eine Dimension aus.
    2. Wählen Sie unter Spaltenname eine Spalte aus.
    3. Geben Sie im Feld SQL-Ausdruck angeben einen SQL-Ausdruck ein, der als boolescher Wert true (bestanden) oder false (nicht bestanden) ausgewertet wird. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen unter Regeln für die Datenqualität definieren.
    4. Klicken Sie auf Hinzufügen.
  - SQL-Assertion-Regel: Erstellen Sie eine benutzerdefinierte SQL-Assertion-Regel, um den ungültigen Status der Daten zu prüfen.
    1. Wählen Sie unter Dimension eine Dimension aus.
    2. Optional: Wählen Sie unter Spaltenname eine Spalte aus.
    3. Geben Sie im Feld SQL-Anweisung angeben eine SQL-Anweisung ein, die Zeilen zurückgibt, die dem ungültigen Status entsprechen. Wenn Zeilen zurückgegeben werden, schlägt die Regel fehl. Lassen Sie das abschließende Semikolon in der SQL-Anweisung weg. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen unter Datenqualitätsregeln definieren.
    4. Klicken Sie auf Hinzufügen.
2. Optional: Sie können jeder Datenqualitätsregel einen benutzerdefinierten Namen zuweisen, der für Monitoring und Benachrichtigungen verwendet wird, sowie eine Beschreibung. Bearbeiten Sie dazu eine Regel und geben Sie die folgenden Details an:
  - Regelname: Geben Sie einen benutzerdefinierten Regelnamen mit bis zu 63 Zeichen ein. Der Regelname kann Buchstaben (a–z, A–Z), Ziffern (0–9) und Bindestriche (-) enthalten und muss mit einem Buchstaben beginnen und mit einer Ziffer oder einem Buchstaben enden.
  - Beschreibung: Geben Sie eine Regelbeschreibung mit maximal 1.024 Zeichen ein.
3. Wiederholen Sie die vorherigen Schritte, um dem Datenqualitätsscan weitere Regeln hinzuzufügen. Klicken Sie anschließend auf Weiter.
Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Führen Sie im Abschnitt Scanergebnisse in BigQuery-Tabelle exportieren folgende Schritte aus:
1. Klicken Sie im Feld BigQuery-Dataset auswählen auf Durchsuchen. Wählen Sie ein BigQuery-Dataset zum Speichern der Ergebnisse des Datenqualitätsscans aus.
2. Geben Sie im Feld BigQuery-Tabelle die Tabelle an, in der die Ergebnisse des Datenqualitätsscans gespeichert werden sollen. Wenn Sie eine vorhandene Tabelle verwenden, muss sie mit dem Tabellenschema für den Export kompatibel sein. Wenn die angegebene Tabelle nicht vorhanden ist, wird sie von Dataplex Universal Catalog erstellt.
  
  Hinweis: Sie können dieselbe Ergebnistabelle für mehrere Datenqualitätsscans verwenden.
Optional: Fügen Sie Labels hinzu. Labels sind Schlüssel/Wert-Paare, mit denen Sie verwandte Objekte miteinander oder mit anderen Google Cloud -Ressourcen gruppieren können.
Optional: Richten Sie E-Mail-Benachrichtigungsberichte ein, um Personen über den Status und die Ergebnisse eines Datenqualitätsscan-Jobs zu informieren. Klicken Sie im Bereich Benachrichtigungsbericht auf E-Mail-ID hinzufügen und geben Sie bis zu fünf E-Mail-Adressen ein. Wählen Sie dann die Szenarien aus, für die Sie Berichte senden möchten:
- Wert für Qualität (<=): Ein Bericht wird gesendet, wenn ein Job mit einem Datenqualitätsfaktor abgeschlossen wird, der niedriger als der angegebene Zielwert ist. Geben Sie einen Ziel-Qualitätsfaktor zwischen 0 und 100 ein.
- Job failures (Jobfehler): Ein Bericht wird gesendet, wenn der Job selbst fehlschlägt, unabhängig von den Ergebnissen der Datenqualität.
- Jobabschluss (Erfolg oder Fehler): Sendet einen Bericht, wenn der Job beendet wird, unabhängig von den Ergebnissen zur Datenqualität.
Klicken Sie auf Erstellen.

Nachdem Sie den Scan erstellt haben, können Sie ihn jederzeit ausführen, indem Sie auf Run now (Jetzt ausführen) klicken.

gcloud

Verwenden Sie zum Erstellen eines Datenqualitätsscans den Befehl gcloud dataplex datascans create data-quality.

Wenn die Quelldaten in einem Dataplex Universal Catalog-Lake organisiert sind, fügen Sie das Flag --data-source-entity ein:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-entity=DATA_SOURCE_ENTITY

Wenn die Quelldaten nicht in einem Dataplex Universal Catalog-Lake organisiert sind, fügen Sie das Flag --data-source-resource ein:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-resource=DATA_SOURCE_RESOURCE

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenqualitätsscans.
LOCATION: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt werden soll.
DATA_QUALITY_SPEC_FILE: Der Pfad zur JSON- oder YAML-Datei, die die Spezifikationen für den Datenqualitäts-Scan enthält. Die Datei kann eine lokale Datei oder ein Cloud Storage-Pfad mit dem Präfix gs:// sein. Mit dieser Datei geben Sie die Datenqualitätsregeln für den Scan an. Sie können in dieser Datei auch zusätzliche Details angeben, z. B. Filter, den Prozentsatz für die Stichprobenerhebung und Aktionen nach dem Scannen, z. B. den Export nach BigQuery oder das Senden von E‑Mail-Benachrichtigungsberichten. Weitere Informationen finden Sie in der Dokumentation zur JSON-Darstellung und in der YAML-Beispieldarstellung.
DATA_SOURCE_ENTITY: Die Dataplex Universal Catalog-Entität, die die Daten für den Datenqualitätsscan enthält. Beispiel: projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE: Der Name der Ressource, die die Daten für den Datenqualitäts-Scan enthält. Beispiel: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

REST

Verwenden Sie die dataScans.create-Methode, um einen Datenqualitätsscan zu erstellen.

Wenn Sie Regeln für den Datenqualitätsscan anhand von Regelempfehlungen erstellen möchten, die auf den Ergebnissen eines Datenprofilscans basieren, rufen Sie die Empfehlungen auf, indem Sie die dataScans.jobs.generateDataQualityRules-Methode für den Datenprofilscan aufrufen.

Hinweis:Wenn für Ihre BigQuery-Tabelle die Einstellung Partitionsfilter erforderlich auf true gesetzt ist, verwenden Sie die BigQuery-Partitionsspalte als Zeilenfilter oder Zeitstempelspalte für den Datenqualitätsscan.

Datenqualitätsscan ausführen

Konsole

Rufen Sie in der Google Cloud Console auf der Seite Metadatenverwaltung von BigQuery den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Datenqualitätsscan, der ausgeführt werden soll.
Klicken Sie auf Jetzt ausführen.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans run, um einen Scan der Datenqualität auszuführen:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION \

Ersetzen Sie die folgenden Variablen:

LOCATION: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt wurde.
DATASCAN: Der Name des Datenqualitätsscans.

REST

Verwenden Sie die Methode dataScans.run, um einen Datenqualitäts-Scan auszuführen.

Ergebnisse des Datenqualitätsscans ansehen

Konsole

Rufen Sie in der Google Cloud Console auf der Seite Metadatenverwaltung von BigQuery den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenqualitätsscans.
- Im Bereich Übersicht werden Informationen zu den letzten Jobs angezeigt, z. B. wann der Scan ausgeführt wurde, die Anzahl der in jedem Job gescannten Datensätze, ob alle Datenqualitätsprüfungen bestanden wurden und, falls Fehler aufgetreten sind, die Anzahl der fehlgeschlagenen Datenqualitätsprüfungen.
- Im Bereich Konfiguration für Datenqualitätsscan werden Details zum Scan angezeigt.
Wenn Sie detaillierte Informationen zu einem Job aufrufen möchten, z. B. Datenqualitätswerte, die den Prozentsatz der bestandenen Regeln angeben, fehlgeschlagene Regeln und die Joblogs, klicken Sie auf den Tab Jobverlauf. Klicken Sie dann auf eine Job-ID.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans jobs describe, um die Ergebnisse eines Datenqualitätsscan-Jobs aufzurufen:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Ersetzen Sie die folgenden Variablen:

JOB: Die Job-ID des Jobs für den Datenqualitätsscan.
LOCATION: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt wurde.
DATASCAN: Der Name des Datenqualitätsscans, zu dem der Job gehört.
--view=FULL: Wenn Sie das Ergebnis des Scanjobs sehen möchten, geben Sie FULL an.

REST

Verwenden Sie die Methode dataScans.get, um die Ergebnisse eines Datenqualitätsscans aufzurufen.

Veröffentlichte Ergebnisse ansehen

Wenn die Ergebnisse des Datenqualitätsscans als Dataplex Universal Catalog-Metadaten veröffentlicht werden, können Sie die neuesten Scanergebnisse auf den BigQuery- und Dataplex Universal Catalog-Seiten in derGoogle Cloud Console auf dem Tab Datenqualität der Quelltabelle ansehen.

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen
Wählen Sie im Bereich Explorer die Tabelle aus, deren Ergebnisse des Datenqualitätsscans Sie sehen möchten.
Klicken Sie auf den Tab Datenqualität.

Die zuletzt veröffentlichten Ergebnisse werden angezeigt.

Hinweis :Veröffentlichte Ergebnisse sind möglicherweise nicht verfügbar, wenn ein Scan zum ersten Mal ausgeführt wird.

Historische Scanergebnisse ansehen

In Dataplex Universal Catalog wird der Verlauf der Datenqualitätsscans der letzten 300 Jobs oder des letzten Jahres gespeichert (der kürzere Zeitraum gilt).

Konsole

Rufen Sie in der Google Cloud Console auf der Seite Metadatenverwaltung von BigQuery den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenqualitätsscans.
Klicken Sie auf den Tab Jobverlauf.

Auf dem Tab Jobverlauf finden Sie Informationen zu früheren Jobs, z. B. die Anzahl der in jedem Job gescannten Datensätze, den Jobstatus, die Ausführungszeit des Jobs und ob jede Regel bestanden oder fehlgeschlagen ist.
Wenn Sie die Details zu einem Job aufrufen möchten, klicken Sie in der Spalte Job-ID auf einen der Jobs.

gcloud

Verwenden Sie den gcloud dataplex datascans jobs list-Befehl, um frühere Jobs für Datenqualitätsscans aufzurufen:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN \

Ersetzen Sie die folgenden Variablen:

LOCATION: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt wurde.
DATASCAN: Der Name des Datenqualitätsscans, für den Sie frühere Jobs aufrufen möchten.

REST

Verwenden Sie die Methode dataScans.jobs.list, um historische Datenqualitätsscan-Jobs aufzurufen.

Zugriff auf Ergebnisse des Datenqualitätsscans gewähren

So ermöglichen Sie den Nutzern in Ihrer Organisation, die Scanergebnisse aufzurufen:

Rufen Sie in der Google Cloud Console auf der Seite Metadatenverwaltung von BigQuery den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Datenqualitätsscan, dessen Ergebnisse Sie freigeben möchten.
Klicken Sie auf den Tab Berechtigungen.
Gehen Sie dazu so vor:
- Wenn Sie einem Hauptkonto Zugriff gewähren möchten, klicken Sie auf Zugriff gewähren. Weisen Sie dem zugehörigen Hauptkonto die Rolle Dataplex DataScan DataViewer zu.
- Wenn Sie den Zugriff eines Hauptkontos entfernen möchten, wählen Sie das Hauptkonto aus, für das Sie die Rolle Dataplex DataScan DataViewer entfernen möchten. Klicken Sie auf Zugriff entfernen und bestätigen Sie den Vorgang, wenn Sie dazu aufgefordert werden.

Fehler bei der Datenqualität beheben

Sie können mithilfe der Logs in Cloud Logging Benachrichtigungen für Fehler bei der Datenqualität einrichten. Weitere Informationen, einschließlich Beispielabfragen, finden Sie unter Benachrichtigungen in Cloud Logging einrichten.

Für jeden Job mit fehlgeschlagenen Regeln auf Zeilenebene stellt Dataplex Universal Catalog eine Abfrage zum Abrufen der fehlgeschlagenen Datensätze bereit. Führen Sie diese Abfrage aus, um die Datensätze zu sehen, die nicht mit Ihrer Regel übereinstimmen.

Konsole

Rufen Sie in der Google Cloud Console auf der Seite Metadatenverwaltung von BigQuery den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen des Datenqualitäts-Scans, dessen Datensätze Sie untersuchen möchten.
Klicken Sie auf den Tab Jobverlauf.
Klicken Sie auf die Job-ID des Jobs, bei dem Datenqualitätsfehler festgestellt wurden.
Suchen Sie im Fenster mit den Job-Ergebnissen, das sich öffnet, im Abschnitt Regeln nach der Spalte Abfrage zum Abrufen fehlgeschlagener Datensätze. Klicken Sie für die fehlgeschlagene Regel auf Abfrage in die Zwischenablage kopieren.
Führen Sie die Abfrage in BigQuery aus, um die Datensätze zu sehen, die zum Fehlschlagen des Jobs geführt haben.

gcloud

Nicht unterstützt.

REST

Verwenden Sie die dataScans.get-Methode, um den Job abzurufen, in dem Datenqualitätsprobleme erkannt wurden.

Im Antwortobjekt wird die Abfrage im Feld failingRowsQuery angezeigt.
Führen Sie die Abfrage in BigQuery aus, um die Datensätze zu sehen, die zum Fehlschlagen des Jobs geführt haben.

Scans zur Datenqualität für eine bestimmte Tabelle verwalten

In diesem Dokument wird beschrieben, wie Sie Datenqualitätsscans in Ihrem Projekt über BigQuery Metadatenverwaltung> Datenprofilerstellung und ‑qualität in derGoogle Cloud Console verwalten.

Sie können Datenqualitätsscans auch erstellen und verwalten, wenn Sie mit einer bestimmten Tabelle arbeiten. Rufen Sie in der Google Cloud Console auf der BigQuery-Seite für die Tabelle den Tab Datenqualität auf. Gehen Sie dazu so vor:

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen

Wählen Sie im Bereich Explorer die Tabelle aus.
Klicken Sie auf den Tab Datenqualität.
Je nachdem, ob für die Tabelle ein Datenqualitätsscan vorhanden ist, dessen Ergebnisse als Dataplex Universal Catalog-Metadaten veröffentlicht werden, haben Sie folgende Möglichkeiten, mit den Datenqualitätsscans der Tabelle zu arbeiten:
- Ergebnisse des Datenqualitätsscans werden veröffentlicht: Die neuesten Scanergebnisse werden auf der Seite angezeigt.
  
  Wenn Sie die Datenqualitätsscans für diese Tabelle verwalten möchten, klicken Sie auf Datenqualitätsscan und wählen Sie eine der folgenden Optionen aus:
  - Neuen Scan erstellen: Erstellen Sie einen neuen Datenqualitätsscan. Weitere Informationen finden Sie im Abschnitt Datenqualitätsscan erstellen in diesem Dokument. Wenn Sie einen Scan über die Detailseite einer Tabelle erstellen, ist die Tabelle bereits ausgewählt.
  - Jetzt ausführen: Scan ausführen
  - Scankonfiguration bearbeiten: Bearbeiten Sie Einstellungen wie den Anzeigenamen, Filter und den Zeitplan.
    
    Wenn Sie die Regeln zur Datenqualität bearbeiten möchten, klicken Sie auf dem Tab Datenqualität auf den Tab Regeln. Klicken Sie auf Regeln ändern. Aktualisieren Sie die Regeln und klicken Sie dann auf Speichern.
  - Scanberechtigungen verwalten: Sie können festlegen, wer auf die Scanergebnisse zugreifen darf. Weitere Informationen finden Sie im Abschnitt Zugriff auf Ergebnisse des Datenqualitätsscans gewähren in diesem Dokument.
  - Historische Ergebnisse ansehen: Hier können Sie detaillierte Informationen zu früheren Datenqualitätsscan-Jobs aufrufen. Weitere Informationen finden Sie in diesem Dokument in den Abschnitten Ergebnisse des Datenqualitätsscans ansehen und Verlaufsergebnisse des Scans ansehen.
  - Alle Scans ansehen: Hier sehen Sie eine Liste der Datenqualitätsscans, die für diese Tabelle gelten.
- Ergebnisse des Datenqualitätsscans werden nicht veröffentlicht: Wählen Sie eine der folgenden Optionen aus:
  - Datenqualitätsscan erstellen: Erstellen Sie einen neuen Datenqualitätsscan. Weitere Informationen finden Sie im Abschnitt Datenqualitätsscan erstellen in diesem Dokument. Wenn Sie einen Scan über die Detailseite einer Tabelle erstellen, ist die Tabelle bereits ausgewählt.
  - Vorhandene Scans ansehen: Hier sehen Sie eine Liste der Datenqualitätsscans, die für diese Tabelle gelten.

Datenqualitätsscans für eine Tabelle ansehen

So rufen Sie die Datenqualitätsscans auf, die für eine bestimmte Tabelle gelten:

Rufen Sie in der Google Cloud Console auf der Seite „BigQuery“ → Metadatenverwaltung den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Filtern Sie die Liste nach Tabellennamen und Scantyp.

Datenqualitätsscan aktualisieren

Sie können verschiedene Einstellungen für einen vorhandenen Scan zur Datenqualität bearbeiten, z. B. den Anzeigenamen, Filter, Zeitplan und die Regeln zur Datenqualität.

Konsole

Rufen Sie in der Google Cloud Console auf der Seite Metadatenverwaltung von BigQuery den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenqualitätsscans.
Wenn Sie Einstellungen wie den Anzeigenamen, Filter und den Zeitplan bearbeiten möchten, klicken Sie auf Bearbeiten. Bearbeiten Sie die Werte und klicken Sie dann auf Speichern.
Wenn Sie die Regeln zur Datenqualität bearbeiten möchten, klicken Sie auf der Seite mit den Scandetails auf den Tab Aktuelle Regeln. Klicken Sie auf Regeln ändern. Aktualisieren Sie die Regeln und klicken Sie dann auf Speichern.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans update data-quality, um die Beschreibung eines Datenqualitäts-Scans zu aktualisieren:

gcloud dataplex datascans update data-quality DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Ersetzen Sie Folgendes:

DATASCAN: Der Name des zu aktualisierenden Datenqualitätsscans.
LOCATION: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt wurde.
DESCRIPTION: Die neue Beschreibung für den Datenqualitäts-Scan.

REST

Verwenden Sie die dataScans.patch-Methode, um einen Datenqualitätsscan zu bearbeiten.

Datenqualitätsscan löschen

Konsole

Rufen Sie in der Google Cloud Console auf der Seite Metadatenverwaltung von BigQuery den Tab Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Scan, den Sie löschen möchten.
Klicken Sie auf Löschen und bestätigen Sie den Vorgang, wenn Sie dazu aufgefordert werden.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans delete, um einen Datenqualitätsscan zu löschen:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION \
--async

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des zu löschenden Datenqualitäts-Scans.
LOCATION: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt wurde.

REST

Verwenden Sie zum Löschen eines Datenqualitätsscans die Methode dataScans.delete.

Nächste Schritte

Weitere Informationen zur Data Governance in BigQuery