Auf dieser Seite wird beschrieben, wie Sie einen Dataplex Universal Catalog-Scan zur Datenqualität erstellen.
Weitere Informationen zu Datenqualitätsscans finden Sie unter Automatische Datenqualität.
Hinweise
Aktivieren Sie die Dataplex API.
Optional: Wenn Sie möchten, dass Dataplex Universal Catalog Empfehlungen für Datenqualitätsregeln basierend auf den Ergebnissen eines Datenprofilscans generiert, erstellen und führen Sie den Datenprofilscan aus.
Erforderliche Rollen
Wenn Sie einen Datenqualitätsscan für eine BigQuery-Tabelle ausführen möchten, benötigen Sie die Berechtigung zum Lesen der BigQuery-Tabelle und die Berechtigung zum Erstellen eines BigQuery-Jobs in dem Projekt, das zum Scannen der Tabelle verwendet wird.
Wenn sich die BigQuery-Tabelle und der Datenqualitätsscan in verschiedenen Projekten befinden, müssen Sie dem Dataplex Universal Catalog-Dienstkonto des Projekts, das den Datenqualitätsscan enthält, die Leseberechtigung für die entsprechende BigQuery-Tabelle erteilen.
Wenn sich die Datenqualitätsregeln auf zusätzliche Tabellen beziehen, muss das Dienstkonto des Scanprojekts Leseberechtigungen für dieselben Tabellen haben.
Bitten Sie Ihren Administrator, dem Dataplex Universal Catalog-Dienstkonto die IAM-Rolle „BigQuery-Datenbearbeiter“ (
roles/bigquery.dataEditor
) für das Dataset und die Tabelle mit den Ergebnissen zuzuweisen, damit Sie die Berechtigungen erhalten, die Sie zum Exportieren der Scanergebnisse in eine BigQuery-Tabelle benötigen. Dadurch werden die folgenden Berechtigungen gewährt:bigquery.datasets.get
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.update
bigquery.tables.updateData
Wenn die BigQuery-Daten in einem Dataplex Universal Catalog-Lake organisiert sind, weisen Sie dem Dataplex Universal Catalog-Dienstkonto die IAM-Rollen „Dataplex-Metadatenleser“ (
roles/dataplex.metadataReader
) und „Dataplex-Betrachter“ (roles/dataplex.viewer
) zu. Alternativ benötigen Sie alle folgenden Berechtigungen:dataplex.lakes.list
dataplex.lakes.get
dataplex.zones.list
dataplex.zones.get
dataplex.entities.list
dataplex.entities.get
dataplex.operations.get
Wenn Sie eine externe BigQuery-Tabelle aus Cloud Storage scannen, weisen Sie dem Dataplex Universal Catalog-Dienstkonto die Cloud Storage-Rolle
roles/storage.objectViewer
für den Bucket zu. Alternativ können Sie dem Dataplex Universal Catalog-Dienstkonto die folgenden Berechtigungen zuweisen:storage.buckets.get
storage.objects.get
Wenn Sie die Ergebnisse des Datenqualitätsscans als Metadaten des Dataplex Universal Catalog veröffentlichen möchten, benötigen Sie die IAM-Rolle „BigQuery-Datenbearbeiter“ (
roles/bigquery.dataEditor
) für die Tabelle und die Berechtigungdataplex.entryGroups.useDataQualityScorecardAspect
für die@bigquery
-Eintragsgruppe am selben Ort wie die Tabelle. Alternativ muss Ihnen die Rolle „Dataplex Catalog Editor“ (roles/dataplex.catalogEditor
) für die Eintragsgruppe@bigquery
am selben Standort wie die Tabelle zugewiesen werden.Alternativ benötigen Sie alle folgenden Berechtigungen:
bigquery.tables.get
bigquery.tables.update
bigquery.tables.updateData
bigquery.tables.delete
dataplex.entryGroups.useDataQualityScorecardAspect
Alternativ benötigen Sie alle der folgenden Berechtigungen:
dataplex.entries.update
dataplex.entryGroups.useDataQualityScorecardAspect
Wenn Sie auf Spalten zugreifen müssen, die durch BigQuery-Zugriffsrichtlinien auf Spaltenebene geschützt sind, weisen Sie dem Dataplex Universal Catalog-Dienstkonto Berechtigungen für diese Spalten zu. Der Nutzer, der einen Daten-Scan erstellt oder aktualisiert, benötigt auch Berechtigungen für die Spalten.
Wenn für eine Tabelle BigQuery-Zugriffsrichtlinien auf Zeilenebene aktiviert sind, können Sie nur Zeilen scannen, die für das Dataplex Universal Catalog-Dienstkonto sichtbar sind. Die Zugriffsberechtigungen des einzelnen Nutzers werden für Richtlinien auf Zeilenebene nicht ausgewertet.
Erforderliche Rollen für die Datenprüfung
Wenn Sie die automatische Datenqualität verwenden möchten, benötigen Sie entweder die Berechtigungen zum Ausführen von Datenscans oder eine Rolle mit vordefinierten Berechtigungen zum Ausführen von Datenscans.
In der folgenden Tabelle sind die DataScan
-Berechtigungen aufgeführt:
Name der Berechtigung | Gewährt die Berechtigung für Folgendes: |
---|---|
dataplex.datascans.create |
DataScan erstellen |
dataplex.datascans.delete |
DataScan löschen |
dataplex.datascans.get |
Betriebsmetadaten wie ID oder Zeitplan ansehen, aber nicht Ergebnisse und Regeln |
dataplex.datascans.getData |
DataScan -Details ansehen, einschließlich Regeln und Ergebnissen |
dataplex.datascans.list |
DataScan auflisten |
dataplex.datascans.run |
DataScan ausführen |
dataplex.datascans.update |
Beschreibung eines DataScan aktualisieren |
dataplex.datascans.getIamPolicy |
Aktuelle IAM-Berechtigungen für den Scan ansehen |
dataplex.datascans.setIamPolicy |
IAM-Berechtigungen für den Scan festlegen |
Weisen Sie Nutzern eine oder mehrere der folgenden Rollen zu:
- Vollständiger Zugriff auf
DataScan
-Ressourcen: Dataplex-DataScan-Administrator (roles/dataplex.dataScanAdmin
) - Schreibzugriff auf
DataScan
-Ressourcen: Dataplex-DataScan-Bearbeiter (roles/dataplex.dataScanEditor
) - Lesezugriff auf
DataScan
-Ressourcen mit Ausnahme von Regeln und Ergebnissen: Dataplex DataScan-Betrachter (roles/dataplex.dataScanViewer
) - Lesezugriff auf
DataScan
-Ressourcen, einschließlich Regeln und Ergebnissen: Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer
)
Regeln für die Datenqualität definieren
Sie können Datenqualitätsregeln mithilfe von integrierten Regeln oder benutzerdefinierten SQL-Prüfungen definieren. Wenn Sie die Google Cloud CLI verwenden, können Sie diese Regeln in einer JSON- oder YAML-Datei definieren.
Die Beispiele in den folgenden Abschnitten zeigen, wie verschiedene Regeln für die Datenqualität definiert werden. Mit den Regeln wird eine Beispielstabelle mit Daten zu Kundentransaktionen validiert. Angenommen, die Tabelle hat das folgende Schema:
Spaltenname | Spaltentyp | Spaltenbeschreibung |
---|---|---|
transaction_timestamp | Zeitstempel | Zeitstempel der Transaktion. Die Tabelle ist nach diesem Feld partitioniert. |
customer_id | String | Eine Kundennummer im Format von 8 Buchstaben gefolgt von 16 Ziffern. |
transaction_id | String | Die Transaktions-ID muss in der Tabelle eindeutig sein. |
currency_id | String | Eine der unterstützten Währungen.Der Währungstyp muss mit einer der verfügbaren Währungen in der Dimensionstabelle dim_currency übereinstimmen.
|
Menge | float | Transaktionsbetrag |
discount_pct | float | Rabattprozentsatz Dieser Wert muss zwischen 0 und 100 liegen. |
Regeln für die Datenqualität mit integrierten Regeltypen definieren
Die folgenden Beispielregeln basieren auf integrierten Regeltypen. Sie können Regeln basierend auf integrierten Regeltypen mit der Google Cloud -Konsole oder der API erstellen. Dataplex Universal Catalog empfiehlt möglicherweise einige dieser Regeln.
Spaltenname | Regeltyp | Vorgeschlagene Dimension | Regelparameter |
---|---|---|---|
transaction_id |
Eindeutigkeitsprüfung | Eindeutigkeit | Threshold: Not Applicable (Grenzwert: 500) |
amount |
NULL-Prüfung | Vollständigkeit | Threshold: 100% (Grenzwert: 500) |
customer_id |
Prüfung mit regulären Ausdrücken (Regex) | Gültigkeit | Regulärer Ausdruck: ^[0-9]{8}[a-zA-Z]{16}$ Grenzwert: 100%
|
currency_id |
Wertesatzprüfung | Gültigkeit | Gruppe: USD,JPY,INR,GBP,CAN Grenzwert: 100%
|
Regeln für Datenqualität mit benutzerdefinierten SQL-Regeln definieren
Verwenden Sie das folgende Framework, um benutzerdefinierte SQL-Regeln zu erstellen:
Wenn Sie eine Regel erstellen, die jeweils eine Zeile auswertet, erstellen Sie einen Ausdruck, der die Anzahl der erfolgreichen Zeilen generiert, wenn Dataplex Universal Catalog die Abfrage
SELECT COUNTIF(CUSTOM_SQL_EXPRESSION) FROM TABLE
auswertet. Dataplex Universal Catalog vergleicht die Anzahl der erfolgreichen Zeilen mit dem Schwellenwert.Wenn Sie eine Regel erstellen, die zeilenübergreifend ausgewertet wird oder eine Tabellenbedingung verwendet, erstellen Sie einen Ausdruck, der Erfolg oder Fehler zurückgibt, wenn Dataplex Universal Catalog die Abfrage
SELECT IF(CUSTOM_SQL_EXPRESSION) FROM TABLE
auswertet.Wenn Sie eine Regel erstellen, mit der der ungültige Status eines Datasets ausgewertet wird, geben Sie eine Anweisung an, die ungültige Zeilen zurückgibt. Wenn Zeilen zurückgegeben werden, schlägt die Regel fehl. Lassen Sie das abschließende Semikolon in der SQL-Anweisung weg.
Sie können in einer Regel mit dem Datenreferenzparameter
${data()}
auf eine Datenquellentabelle und alle zugehörigen Vorbedingungsfilter verweisen, anstatt die Quellentabelle und ihre Filter explizit zu erwähnen. Beispiele für Precondition-Filter sind Zeilenfilter, Stichprobenprozentsätze und inkrementelle Filter. Beim Parameter${data()}
wird zwischen Groß- und Kleinschreibung unterschieden.
Die folgenden Beispielregeln basieren auf benutzerdefinierten SQL-Regeln.
Regeltyp | Regelbeschreibung | SQL-Ausdruck |
---|---|---|
Zeilenbedingung | Prüft, ob der Wert von discount_pct zwischen 0 und 100 liegt.
|
0 < discount_pct UND discount_pct < 100
|
Zeilenbedingung | Prüfen Sie, ob currency_id eine der unterstützten Währungen ist.
|
currency_id in (select id from my_project_id.dim_dataset.dim_currency)
|
Tabellenbedingung | Aggregierter SQL-Ausdruck, mit dem geprüft wird, ob der durchschnittliche discount_pct zwischen 30% und 50 % liegt.
|
30<avg(discount) AND avg(discount) <50
|
Zeilenbedingung | Prüft, ob ein Datum nicht in der Zukunft liegt. | TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
|
Tabellenbedingung |
Eine benutzerdefinierte BigQuery-Funktion (UDF), um zu prüfen, ob der durchschnittliche Transaktionsbetrag pro Land unter einem vordefinierten Wert liegt. Erstellen Sie die (JavaScript-)UDF mit dem folgenden Befehl:
CREATE OR REPLACE FUNCTION myProject.myDataset.average_by_country ( country STRING, average FLOAT64) RETURNS BOOL LANGUAGE js AS R""" if (country = "CAN" && average < 5000){ return 1 } else if (country = "IND" && average < 1000){ return 1 } else { return 0 } """; |
Beispielregel zum Prüfen des durchschnittlichen Transaktionsbetrags für country=CAN .
myProject.myDataset.average_by_country( "CAN", (SELECT avg(amount) FROM myProject.myDataset.transactions_table WHERE currency_id = 'CAN' )) |
Tabellenbedingung | Eine BigQuery ML-PREDICT-Klausel zum Erkennen von Anomalien in discount_pct . Es wird geprüft, ob ein Rabatt auf Grundlage von customer , currency und transaction angewendet werden soll. Die Regel prüft, ob die Vorhersage mindestens 99% der Zeit mit dem tatsächlichen Wert übereinstimmt. Annahme: Das ML-Modell wird vor der Verwendung der Regel erstellt. Erstellen Sie das ML-Modell mit dem folgenden Befehl:
CREATE MODEL model-project-id.dataset-id.model-name OPTIONS(model_type='logistic_reg') AS SELECT IF(discount_pct IS NULL, 0, 1) AS label, IFNULL(customer_id, "") AS customer, IFNULL(currency_id, "") AS currency, IFNULL(amount, 0.0) AS amount FROM `data-project-id.dataset-id.table-names` WHERE transaction_timestamp < '2022-01-01'; |
Mit der folgenden Regel wird geprüft, ob die Vorhersagegenauigkeit über 99 % liegt.
SELECT accuracy > 0.99 FROM ML.EVALUATE (MODEL model-project-id.dataset-id.model-name, ( SELECT customer_id, currency_id, amount, discount_pct FROM data-project-id.dataset-id.table-names WHERE transaction_timestamp > '2022-01-01'; ) ) |
Zeilenbedingung | Eine BigQuery ML-Vorhersagefunktion zum Erkennen von Anomalien in discount_pct . Die Funktion prüft anhand von customer , currency und transaction , ob ein Rabatt angewendet werden soll.
Mit der Regel werden alle Fälle ermittelt, in denen die Vorhersage nicht übereinstimmte.
Annahme: Das ML-Modell wird vor der Verwendung der Regel erstellt. Erstellen Sie das ML-Modell mit dem folgenden Befehl:
CREATE MODEL model-project-id.dataset-id.model-name OPTIONS(model_type='logistic_reg') AS SELECT IF(discount_pct IS NULL, 0, 1) AS label, IFNULL(customer_id, "") AS customer, IFNULL(currency_id, "") AS currency, IFNULL(amount, 0.0) AS amount FROM `data-project-id.dataset-id.table-names` WHERE transaction_timestamp < '2022-01-01'; |
Mit der folgenden Regel wird geprüft, ob die Rabattvorhersage für jede Zeile mit dem tatsächlichen Rabatt übereinstimmt.
IF(discount_pct > 0, 1, 0) =(SELECT predicted_label FROM ML.PREDICT( MODEL model-project-id.dataset-id.model-name, ( SELECT customer_id, currency_id, amount, discount_pct FROM data-project-id.dataset-id.table-names AS t WHERE t.transaction_timestamp = transaction_timestamp LIMIT 1 ) ) ) |
SQL-Assertion | Prüft, ob der discount_pct für heute größer als 30% ist. Dazu wird geprüft, ob es Zeilen mit einem Rabattprozentsatz kleiner oder gleich 30 gibt. |
SELECT * FROM my_project_id.dim_dataset.dim_currency WHERE discount_pct <= 30 AND transaction_timestamp >= current_date() |
SQL-Assertion (mit Parameter für Datenreferenz) | Prüft, ob der Der Datumsfilter Der Datenreferenzparameter |
SELECT * FROM ${data()} WHERE discount_pct > 30 |
Datenqualitätsregeln mit der gcloud CLI definieren
In der folgenden Beispiel-YAML-Datei werden einige der Regeln aus den Beispielregeln mit integrierten Typen und den Beispielregeln für benutzerdefiniertes SQL verwendet. Sie können diese YAML-Datei als Eingabe für den gcloud CLI-Befehl verwenden.
rules:
- uniquenessExpectation: {}
column: transaction_id
dimension: UNIQUENESS
- nonNullExpectation: {}
column: amount
dimension: COMPLETENESS
threshold: 1
- regexExpectation:
regex: '^[0-9]{8}[a-zA-Z]{16}$'
column : customer_id
ignoreNull : true
dimension : VALIDITY
threshold : 1
- setExpectation :
values :
- 'USD'
- 'JPY'
- 'INR'
- 'GBP'
- 'CAN'
column : currency_id
ignoreNull : true
dimension : VALIDITY
threshold : 1
- rangeExpectation:
minValue : '0'
maxValue : '100'
column : discount_pct
ignoreNull : true
dimension : VALIDITY
threshold : 1
- rowConditionExpectation:
sqlExpression : 0 < `discount_pct` AND `discount_pct` < 100
column: discount_pct
dimension: VALIDITY
threshold: 1
- rowConditionExpectation:
sqlExpression : currency_id in (select id from `my_project_id.dim_dataset.dim_currency`)
column: currency_id
dimension: VALIDITY
threshold: 1
- tableConditionExpectation:
sqlExpression : 30 < avg(discount_pct) AND avg(discount_pct) < 50
dimension: VALIDITY
- rowConditionExpectation:
sqlExpression : TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
column: transaction_timestamp
dimension: VALIDITY
threshold: 1
- sqlAssertion:
sqlStatement : SELECT * FROM `my_project_id.dim_dataset.dim_currency` WHERE discount_pct > 100
dimension: VALIDITY
Datenqualitätsscan erstellen
Console
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf Datenqualitätsscan erstellen.
Füllen Sie im Fenster Scan definieren die folgenden Felder aus:
Geben Sie einen Anzeigenamen ein.
Die Scan-ID wird automatisch generiert, wenn Sie keine eigene ID angeben. Weitere Informationen finden Sie in der Konvention für Ressourcennamen.
Optional: Geben Sie eine Beschreibung ein.
Klicken Sie im Feld Tabelle auf Durchsuchen, wählen Sie die gewünschte Tabelle aus und klicken Sie auf Auswählen. Dataplex Universal Catalog unterstützt nur Standard-BigQuery-Tabellen.
Wählen Sie für Tabellen in multiregionalen Datasets eine Region aus, in der der Datenscan erstellt werden soll.
Wenn Sie die Tabellen durchsuchen möchten, die im Dataplex Universal Catalog-Lake organisiert sind, klicken Sie auf In Dataplex-Lakes suchen.
Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
- Wenn Sie Inkrementell auswählen: Wählen Sie im Feld Zeitstempelspalte eine Spalte vom Typ
DATE
oderTIMESTAMP
aus Ihrer BigQuery-Tabelle aus, die monoton zunimmt und zum Identifizieren neuer Datensätze verwendet werden kann. Das kann eine Spalte sein, mit der die Tabelle partitioniert wird.
- Wenn Sie Inkrementell auswählen: Wählen Sie im Feld Zeitstempelspalte eine Spalte vom Typ
Optional: Fügen Sie Labels hinzu. Labels sind
key:value
-Paare, mit denen Sie verwandte Objekte zusammen oder mit anderen Google Cloud Ressourcen gruppieren können.Wenn Sie Ihre Daten filtern möchten, klicken Sie auf Filter. Aktivieren Sie das Kästchen Zeilen filtern. Der Eingabewert für den Zeilenfilter muss ein gültiger SQL-Ausdruck sein, der als Teil einer
WHERE
-Klausel in der GoogleSQL-Syntax verwendet werden kann. Zum Beispiel:col1 >= 0
. Der Filter kann eine Kombination aus mehreren Spaltenbedingungen sein. Beispiel:col1 >= 0 AND col2 < 10
.Wenn Sie Ihre Daten stichprobenartig erfassen möchten, wählen Sie in der Liste Probegröße einen Prozentsatz für die Stichprobenerhebung aus. Wählen Sie einen Prozentwert zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus. Bei größeren Datasets sollten Sie einen niedrigeren Prozentsatz für die Stichprobenerhebung auswählen. Wenn Sie beispielsweise für eine Tabelle mit einem Umfang von etwa 1 PB einen Wert zwischen 0, 1% und 1, 0 % eingeben, werden im Dataplex Universal Catalog 1–10 TB an Daten als Stichprobe verwendet. Bei inkrementellen Datenscans wendet Dataplex Universal Catalog Sampling auf das letzte Inkrement an.
Wenn Sie die Ergebnisse des Datenqualitätsscans als Metadaten für Dataplex Universal Catalog veröffentlichen möchten, wählen Sie das Kästchen Ergebnisse in BigQuery und Dataplex Catalog veröffentlichen aus.
Sie können die neuesten Scanergebnisse auf dem Tab Datenqualität auf den BigQuery- und Dataplex Universal Catalog-Seiten für die Quelltabelle ansehen. Informationen dazu, wie Sie Nutzern Zugriff auf die veröffentlichten Scanergebnisse gewähren, finden Sie unter Veröffentlichte Ergebnisse teilen.
Klicken Sie auf Weiter.
Wählen Sie im Fenster Zeitplan eine der folgenden Optionen aus:
Wiederholen: Führen Sie Ihren Datenqualitätsjob nach einem Zeitplan aus: täglich, wöchentlich, monatlich oder benutzerdefiniert. Geben Sie an, wie oft und zu welcher Uhrzeit der Scan ausgeführt werden soll. Wenn Sie „Benutzerdefiniert“ auswählen, verwenden Sie das Cron-Format, um den Zeitplan anzugeben.
On-Demand: Führen Sie Ihren Datenqualitätsscan-Job nach Bedarf aus.
Klicken Sie auf Weiter.
Definieren Sie im Fenster Regeln für Datenqualität die Regeln, die für diesen Datenqualitätsscan konfiguriert werden sollen. Klicken Sie auf Regeln hinzufügen und wählen Sie eine der folgenden Optionen aus.
Profilbasierte Empfehlungen: Erstellen Sie Regeln anhand von Empfehlungen, die auf einem vorhandenen Datenprofilscan basieren.
Spalten auswählen: Wählen Sie die Spalten aus, für die Sie empfohlene Regeln erhalten möchten.
Projekt scannen: Empfehlungen basierend auf einem vorhandenen Datenprofil-Scan. Standardmäßig werden in Dataplex Universal Catalog Profiling-Scans aus demselben Projekt ausgewählt, in dem Sie den Datenqualitätsscan erstellen. Wenn Sie den Scan in einem anderen Projekt erstellt haben, müssen Sie das Projekt angeben, aus dem Profilscans abgerufen werden sollen.
Suchergebnisse für Profile auswählen: Je nach den von Ihnen ausgewählten Spalten und dem Projekt werden mehrere Suchergebnisse für Profile angezeigt.
Wählen Sie ein oder mehrere Profilergebnisse aus und klicken Sie auf OK. Dadurch wird eine Liste mit Regeln zur Auswahl erstellt.
Wählen Sie die Regeln aus, die Sie bearbeiten möchten, indem Sie die Kästchen anklicken und auf Auswählen klicken. Nach der Auswahl werden die Regeln Ihrer aktuellen Regelliste hinzugefügt. Anschließend können Sie die Regeln bearbeiten.
Integrierte Regeltypen: Erstellen Sie Regeln aus vordefinierten Regeln. Liste der vordefinierten Regeln
Spalten auswählen: Wählen Sie die Spalten aus, für die Sie Regeln auswählen möchten.
Regeltypen auswählen: Je nach den ausgewählten Spalten werden mehrere Regeltypen zur Auswahl angezeigt.
Wählen Sie einen oder mehrere Regeltypen aus und klicken Sie auf OK. Dadurch wird eine Liste mit Regeln zur Auswahl erstellt.
Wählen Sie die Regeln aus, die Sie bearbeiten möchten, indem Sie die Kästchen anklicken und auf Auswählen klicken. Nach der Auswahl werden die Regeln der aktuellen Regelliste hinzugefügt. Anschließend können Sie die Regeln bearbeiten.
Prüfregel für SQL-Zeilen: Erstellen Sie eine benutzerdefinierte SQL-Regel, die auf jede Zeile angewendet werden soll (benutzerdefinierte SQL-Regel für Zeilenprüfung).
Wählen Sie unter Dimension eine Dimension aus.
Wählen Sie unter Bestandene Mindestanzahl einen Prozentsatz der Datensätze aus, die die Prüfung bestehen müssen.
Wählen Sie unter Spaltenname eine Spalte aus.
Geben Sie im Feld SQL-Ausdruck angeben einen SQL-Ausdruck ein, der als boolescher Wert
true
(bestanden) oderfalse
(nicht bestanden) ausgewertet wird. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen im Abschnitt Regeln für die Datenqualität definieren in diesem Dokument.Klicken Sie auf Hinzufügen.
Prüfregel für SQL-Aggregate: Erstellen Sie eine benutzerdefinierte SQL-Regel für Tabellenbedingungen.
Wählen Sie unter Dimension eine Dimension aus.
Wählen Sie unter Spaltenname eine Spalte aus.
Geben Sie im Feld SQL-Ausdruck angeben einen SQL-Ausdruck ein, der als boolescher Wert
true
(bestanden) oderfalse
(nicht bestanden) ausgewertet wird. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen im Abschnitt Regeln für die Datenqualität definieren in diesem Dokument.Klicken Sie auf Hinzufügen.
SQL-Assertion-Regel: Erstellen Sie eine benutzerdefinierte SQL-Assertion-Regel, um den ungültigen Status der Daten zu prüfen.
Wählen Sie unter Dimension eine Dimension aus.
Optional: Wählen Sie unter Spaltenname eine Spalte aus.
Geben Sie im Feld SQL-Anweisung angeben eine SQL-Anweisung ein, die Zeilen zurückgibt, die dem ungültigen Status entsprechen. Wenn Zeilen zurückgegeben werden, schlägt die Regel fehl. Lassen Sie das abschließende Semikolon in der SQL-Anweisung weg. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen im Abschnitt Datenqualitätsregeln definieren in diesem Dokument.
Klicken Sie auf Hinzufügen.
Mit Dataplex Universal Catalog können benutzerdefinierte Namen für Datenqualitätsregeln für Monitoring und Benachrichtigungen verwendet werden. Für jede Datenqualitätsregel können Sie optional einen benutzerdefinierten Namen und eine Beschreibung zuweisen. Bearbeiten Sie dazu eine Regel und geben Sie die folgenden Details an:
- Regelname: Geben Sie einen benutzerdefinierten Regelnamen mit bis zu 63 Zeichen ein. Der Regelname kann Buchstaben (a–z, A–Z), Ziffern (0–9) und Bindestriche (-) enthalten und muss mit einem Buchstaben beginnen und mit einer Ziffer oder einem Buchstaben enden.
- Beschreibung: Geben Sie eine Regelbeschreibung mit maximal 1.024 Zeichen ein.
Klicken Sie auf Weiter.
Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Klicken Sie im Bereich Scanergebnisse in BigQuery-Tabelle exportieren auf Durchsuchen, um ein vorhandenes BigQuery-Dataset auszuwählen, in dem die Ergebnisse des Datenqualitätsscans gespeichert werden sollen.
Wenn die angegebene Tabelle nicht vorhanden ist, wird sie von Dataplex Universal Catalog für Sie erstellt. Wenn Sie eine vorhandene Tabelle verwenden, muss diese mit dem Schema der Exporttabelle kompatibel sein.
Optional: Richten Sie E-Mail-Benachrichtigungsberichte ein, um Personen über den Status und die Ergebnisse eines Datenqualitätsscan-Jobs zu informieren. Klicken Sie im Bereich Benachrichtigungsbericht auf
E-Mail-ID hinzufügen und geben Sie bis zu fünf E-Mail-Adressen ein. Wählen Sie dann die Szenarien aus, für die Sie Berichte senden möchten:- Wert für Qualität (<=): Ein Bericht wird gesendet, wenn ein Job mit einem Datenqualitätsfaktor unter dem angegebenen Zielwert erfolgreich abgeschlossen wird. Geben Sie einen Ziel-Qualitätsfaktor zwischen 0 und 100 ein.
- Job failures (Jobfehler): Ein Bericht wird gesendet, wenn der Job selbst fehlschlägt, unabhängig von den Ergebnissen der Datenqualität.
- Jobabschluss (Erfolg oder Fehler): Sendet einen Bericht, wenn der Job beendet wird, unabhängig von den Ergebnissen zur Datenqualität.
Klicken Sie auf Erstellen.
Nachdem Sie den Scan erstellt haben, können Sie ihn jederzeit ausführen, indem Sie auf Run now (Jetzt ausführen) klicken.
gcloud
Verwenden Sie zum Erstellen eines Datenqualitätsscans den Befehl gcloud dataplex datascans create data-quality
.
Wenn die Quelldaten in einem Dataplex Universal Catalog-Lake organisiert sind, fügen Sie das Flag --data-source-entity
ein:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-entity=DATA_SOURCE_ENTITY
Wenn die Quelldaten nicht in einem Dataplex Universal Catalog-Lake organisiert sind, fügen Sie das Flag --data-source-resource
ein:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-resource=DATA_SOURCE_RESOURCE
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des Datenqualitäts-Scans.LOCATION
: Die Google Cloud Region, in der der Datenqualitätsscan erstellt werden soll.DATA_QUALITY_SPEC_FILE
: Der Pfad zur JSON- oder YAML-Datei, die die Spezifikationen für den Datenqualitäts-Scan enthält. Die Datei kann eine lokale Datei oder ein Cloud Storage-Pfad mit dem Präfixgs://
sein. Mit dieser Datei geben Sie die Datenqualitätsregeln für den Scan an. Sie können in dieser Datei auch zusätzliche Details angeben, z. B. Filter, den Prozentsatz für das Sampling und Aktionen nach dem Scannen, z. B. den Export nach BigQuery oder das Senden von E‑Mail-Benachrichtigungsberichten. Weitere Informationen finden Sie in der Dokumentation zur JSON-Darstellung.DATA_SOURCE_ENTITY
: Die Dataplex Universal Catalog-Entität, die die Daten für den Datenqualitätsscan enthält. Beispiel:projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE
: Der Name der Ressource, die die Daten für den Datenqualitäts-Scan enthält. Beispiel://bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
REST
Verwenden Sie den APIs Explorer, um einen Datenqualitätsscan zu erstellen.
Wenn Sie Regeln für den Datenqualitätsscan anhand von Regelempfehlungen erstellen möchten, die auf den Ergebnissen eines Datenprofilscans basieren, rufen Sie die Empfehlungen auf, indem Sie die dataScans.jobs.generateDataQualityRules
-Methode für den Datenprofilscan aufrufen.
Tabellenschema exportieren
Wenn Sie die Ergebnisse des Datenqualitätsscans in eine vorhandene BigQuery-Tabelle exportieren möchten, muss diese mit dem folgenden Tabellenschema kompatibel sein:
Spaltenname | Datentyp der Spalte | Name des Unterfelds (falls zutreffend) |
Datentyp des Unterfelds | Modus | Beispiel |
---|---|---|---|---|---|
data_quality_scan | struct/record |
resource_name |
string |
nullable | //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan |
project_id |
string |
nullable | dataplex-back-end-dev-project |
||
location |
string |
nullable | us-central1 |
||
data_scan_id |
string |
nullable | test-datascan |
||
data_source | struct/record |
resource_name |
string |
nullable | Entitätsfall://dataplex.googleapis.com/projects/dataplex-back-end-dev-project/locations/europe-west2/lakes/a0-datascan-test-lake/zones/a0-datascan-test-zone/entities/table1 Tabellenfall: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
|
dataplex_entity_project_id |
string |
nullable | dataplex-back-end-dev-project |
||
dataplex_entity_project_number |
integer |
nullable | 123456789 |
||
dataplex_lake_id |
string |
nullable | (Nur gültig, wenn die Quelle eine Entität ist)test-lake
|
||
dataplex_zone_id |
string |
nullable | (Nur gültig, wenn die Quelle eine Entität ist)test-zone |
||
dataplex_entity_id |
string |
nullable | (Nur gültig, wenn die Quelle eine Entität ist)test-entity |
||
table_project_id |
string |
nullable | test-project |
||
table_project_number |
integer |
nullable | 987654321 |
||
dataset_id |
string |
nullable | (Nur gültig, wenn die Quelle eine Tabelle ist)test-dataset |
||
table_id |
string |
nullable | (Nur gültig, wenn die Quelle eine Tabelle ist)test-table |
||
data_quality_job_id | string |
nullable | caeba234-cfde-4fca-9e5b-fe02a9812e38 |
||
data_quality_job_configuration | json |
trigger |
string |
nullable | ondemand /schedule |
incremental |
boolean |
nullable | true /false |
||
sampling_percent |
float |
nullable | (0–100)20.0 (entspricht 20%) |
||
row_filter |
string |
nullable | col1 >= 0 AND col2 < 10 |
||
job_labels | json |
nullable | {"key1":value1} |
||
job_start_time | timestamp |
nullable | 2023-01-01 00:00:00 UTC |
||
job_end_time | timestamp |
nullable | 2023-01-01 00:00:00 UTC |
||
job_rows_scanned | integer |
nullable | 7500 |
||
rule_name | string |
nullable | test-rule |
||
rule_type | string |
nullable | Range Check |
||
rule_evaluation_type | string |
nullable | Per row |
||
rule_column | string |
nullable | Rule only attached to a certain column |
||
rule_dimension | string |
nullable | UNIQUENESS |
||
job_quality_result | struct/record |
passed |
boolean |
nullable | true /false |
score |
float |
nullable | 90.8 |
||
job_dimension_result | json |
nullable | {"ACCURACY":{"passed":true,"score":100},"CONSISTENCY":{"passed":false,"score":60}}
|
||
rule_threshold_percent | float |
nullable | (0,0–100,0)Rule-threshold-pct in API * 100 |
||
rule_parameters | json |
nullable | {min: 24, max:5345} |
||
rule_pass | boolean |
nullable | True |
||
rule_rows_evaluated | integer |
nullable | 7400 |
||
rule_rows_passed | integer |
nullable | 3 |
||
rule_rows_null | integer |
nullable | 4 |
||
rule_failed_records_query | string |
nullable | "SELECT * FROM `test-project.test-dataset.test-table` WHERE (NOT((`cTime` >= '15:31:38.776361' and `cTime` <= '19:23:53.754823') IS TRUE));" |
||
rule_assertion_row_count | integer |
nullable | 10 |
Wenn Sie BigQueryExport für einen Job zum Scannen der Datenqualität konfigurieren, sollten Sie die folgenden Richtlinien beachten:
- Verwenden Sie für das Feld
resultsTable
das Format//bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}
. - Verwenden Sie eine BigQuery-Standardtabelle.
- Wenn die Tabelle beim Erstellen oder Aktualisieren des Scans nicht vorhanden ist, wird sie in Dataplex Universal Catalog für Sie erstellt.
- Standardmäßig wird die Tabelle täglich nach der Spalte
job_start_time
partitioniert. - Wenn Sie möchten, dass die Tabelle in anderen Konfigurationen partitioniert wird, oder wenn Sie die Partition nicht möchten, erstellen Sie die Tabelle mit dem erforderlichen Schema und den erforderlichen Konfigurationen neu und geben Sie die vorab erstellte Tabelle dann als Ergebnistabelle an.
- Die Ergebnistabelle muss sich am selben Speicherort wie die Quelltabelle befinden.
- Wenn VPC-SC für das Projekt konfiguriert ist, muss sich die Ergebnistabelle im selben VPC-SC-Perimeter wie die Quelltabelle befinden.
- Wenn die Tabelle während der Ausführung des Scans geändert wird, werden die Daten des aktuell ausgeführten Jobs in die vorherige Ergebnistabelle exportiert. Die Tabellenänderung wird erst beim nächsten Scanjob berücksichtigt.
- Ändern Sie das Tabellenschema nicht. Wenn Sie benutzerdefinierte Spalten benötigen, erstellen Sie eine Ansicht für die Tabelle.
- Um Kosten zu senken, legen Sie je nach Anwendungsfall ein Ablaufdatum für die Partition fest. Weitere Informationen finden Sie unter Partitionsablauf festlegen.
Datenqualitätsscan ausführen
Console
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Datenqualitätsscan, der ausgeführt werden soll.
Klicken Sie auf Jetzt ausführen.
gcloud
Verwenden Sie den gcloud dataplex datascans run
-Befehl, um einen Scan der Datenqualität auszuführen:
gcloud dataplex datascans run DATASCAN \ --location=LOCATION \
Ersetzen Sie die folgenden Variablen:
LOCATION
: Die Google Cloud -Region, in der der Datenqualitätsscan erstellt wurde.DATASCAN
: Der Name des Datenqualitäts-Scans.
REST
Verwenden Sie den APIs Explorer, um Ihren Datenqualitätsscan auszuführen.
Ergebnisse des Datenqualitätsscans ansehen
Console
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Namen des Scans, um die detaillierten Ergebnisse eines Scans aufzurufen.
Im Bereich Übersicht werden Informationen zu den letzten sieben Jobs angezeigt, z. B. wann der Scan ausgeführt wurde, die Anzahl der in jedem Job gescannten Datensätze, ob alle Datenqualitätsprüfungen bestanden wurden, ob Fehler aufgetreten sind, die Anzahl der fehlgeschlagenen Datenqualitätsprüfungen und welche Dimensionen fehlgeschlagen sind.
Im Abschnitt Konfiguration für Datenqualitätsscan werden Details zum Scan angezeigt.
Wenn Sie Datenqualitätswerte sehen möchten, die den Prozentsatz der bestandenen Regeln angeben, klicken Sie auf den Tab Jobverlauf. Klicken Sie dann auf eine Job-ID.
gcloud
Verwenden Sie den Befehl gcloud dataplex datascans jobs describe
, um die Ergebnisse eines Datenqualitätsscan-Jobs aufzurufen:
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
Ersetzen Sie die folgenden Variablen:
JOB
: Die Job-ID des Jobs für den Datenqualitäts-Scan.LOCATION
: Die Google Cloud Region, in der der Datenqualitäts-Scan erstellt wurde.DATASCAN
: Der Name des Datenqualitäts-Scans, zu dem der Job gehört.--view=FULL
: Wenn Sie das Ergebnis des Scanvorgangs sehen möchten, geben SieFULL
an.
REST
Mit dem APIs Explorer können Sie die Ergebnisse eines Datenqualitätsscans ansehen.
Historische Scanergebnisse ansehen
Im Dataplex Universal Catalog wird der Datenqualitäts-Scanverlauf der letzten 300 Jobs oder des letzten Jahres gespeichert, je nachdem, was zuerst eintritt.
Console
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Namen eines Scans.
Klicken Sie auf den Tab Jobverlauf.
Auf dem Tab Jobverlauf finden Sie Informationen zu früheren Jobs. Darin sind alle Jobs, die Anzahl der in jedem Job gescannten Datensätze, der Jobstatus, die Uhrzeit, zu der der Job ausgeführt wurde, ob jede Regel bestanden oder fehlgeschlagen ist, und weitere Informationen aufgeführt.
Wenn Sie detaillierte Informationen zu einem Job aufrufen möchten, klicken Sie auf einen der Jobs in der Spalte Job-ID.
gcloud
Verwenden Sie den Befehl gcloud dataplex datascans jobs list
, um alle Jobs eines Datenqualitätsscans aufzurufen:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN \
Ersetzen Sie die folgenden Variablen:
LOCATION
: Die Google Cloud Region, in der der Datenqualitäts-Scan erstellt wurde.DATASCAN
: Der Name des Datenqualitäts-Scans, für den alle Jobs angezeigt werden sollen.
REST
Mit dem APIs Explorer können Sie alle Scan-Jobs aufrufen.
Veröffentlichte Ergebnisse teilen
Wenn Sie beim Erstellen eines Scans zur Datenqualität die Scanergebnisse als Dataplex Universal Catalog-Metadaten veröffentlichen, sind die neuesten Scanergebnisse in derGoogle Cloud -Konsole auf den BigQuery- und Dataplex Universal Catalog-Seiten auf dem Tab Datenqualität für die Tabelle verfügbar.
Sie können Nutzern in Ihrer Organisation den Zugriff auf die veröffentlichten Scanergebnisse ermöglichen. So gewähren Sie Zugriff auf die Scanergebnisse:
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Datenqualitätsscan, dessen Ergebnisse Sie teilen möchten.
Wechseln Sie zum Tab Berechtigungen.
Klicken Sie auf Zugriff erlauben.
Fügen Sie im Feld Neue Hauptkonten das Hauptkonto hinzu, dem Sie Zugriff gewähren möchten.
Wählen Sie im Feld Rolle auswählen die Option Dataplex DataScan DataViewer aus.
Klicken Sie auf Speichern.
So entfernen Sie den Zugriff auf die veröffentlichten Scanergebnisse für ein Hauptkonto:
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Datenqualitätsscan, dessen Ergebnisse Sie teilen möchten.
Wechseln Sie zum Tab Berechtigungen.
Wählen Sie das Hauptkonto aus, für das Sie die Rolle Dataplex DataScan DataViewer entfernen möchten.
Klicken Sie auf Zugriff entfernen.
Klicken Sie auf Bestätigen.
Benachrichtigungen in Cloud Logging einrichten
So richten Sie Benachrichtigungen für Fehler bei der Datenqualität mithilfe der Logs in Cloud Logging ein:
Console
Rufen Sie in der Google Cloud Console den Log-Explorer von Cloud Logging auf.
Geben Sie im Fenster Abfrage Ihre Abfrage ein. Beispielabfragen
Klicken Sie auf Abfrage ausführen.
Klicken Sie auf Benachrichtigung erstellen. Dadurch wird eine Seitenleiste geöffnet.
Geben Sie den Namen der Benachrichtigungsrichtlinie ein und klicken Sie auf Weiter.
Überprüfen Sie die Abfrage.
Klicken Sie auf die Schaltfläche Protokolle in der Vorschau ansehen, um die Abfrage zu testen. Hier werden Logs mit übereinstimmenden Bedingungen angezeigt.
Klicken Sie auf Weiter.
Legen Sie die Zeit zwischen Benachrichtigungen fest und klicken Sie auf Weiter.
Legen Sie fest, wer über die Benachrichtigung informiert werden soll, und klicken Sie auf Speichern, um die Benachrichtigungsrichtlinie zu erstellen.
Alternativ können Sie Ihre Benachrichtigungen konfigurieren und bearbeiten, indem Sie in derGoogle Cloud -Konsole zu Monitoring > Benachrichtigungen navigieren.
gcloud
Nicht unterstützt.
REST
Mit dem APIs Explorer können Sie Benachrichtigungen in Cloud Logging festlegen.
Beispielabfragen zum Festlegen von Benachrichtigungen auf Job- oder Dimensionsebene
Eine Beispielabfrage zum Festlegen von Benachrichtigungen zu allgemeinen Fehlern bei der Datenqualität für einen Scan zur Datenqualität:
resource.type="dataplex.googleapis.com/DataScan" AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED" AND resource.labels.resource_container="projects/112233445566" AND resource.labels.datascan_id="a0-test-dec6-dq-3" AND NOT jsonPayload.dataQuality.passed=true
Beispiel für eine Abfrage zum Festlegen von Benachrichtigungen zu Datenqualitätsfehlern für eine Dimension (z. B. Eindeutigkeit) eines bestimmten Datenqualitätsscans:
resource.type="dataplex.googleapis.com/DataScan" AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED" AND resource.labels.resource_container="projects/112233445566" AND resource.labels.datascan_id="a0-test-dec6-dq-3" AND jsonPayload.dataQuality.dimensionPassed.UNIQUENESS=false
Eine Beispielabfrage zum Festlegen von Benachrichtigungen zu Datenqualitätsfehlern für eine Tabelle.
So legen Sie Benachrichtigungen für Fehler bei der Datenqualität für eine BigQuery-Tabelle fest, die nicht in einem Dataplex Universal Catalog-Lake organisiert ist:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.dataSource="//bigquery.googleapis.com/projects/test-project/datasets/testdataset/table/chicago_taxi_trips" AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED" AND resource.labels.resource_container="projects/112233445566" AND NOT jsonPayload.dataQuality.passed=true
So richten Sie Benachrichtigungen für Fehler bei der Datenqualität für eine BigQuery-Tabelle ein, die in einem Dataplex Universal Catalog-Lake organisiert ist:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.dataSource="projects/test-project/datasets/testdataset/table/chicago_taxi_trips" AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED" AND resource.labels.resource_container="projects/112233445566" AND NOT jsonPayload.dataQuality.passed=true
Beispielabfragen zum Festlegen von Benachrichtigungen pro Regel
Beispielabfrage zum Festlegen von Benachrichtigungen für alle fehlgeschlagenen Datenqualitätsregeln mit dem angegebenen benutzerdefinierten Regelnamen für einen Datenqualitätsscan:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.ruleName="custom-name" AND jsonPayload.result="FAILED"
Beispielabfrage zum Festlegen von Benachrichtigungen für alle fehlgeschlagenen Datenqualitätsregeln eines bestimmten Auswertungstyps für einen Datenqualitätsscan:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.evalutionType="PER_ROW" AND jsonPayload.result="FAILED"
Beispielabfrage zum Festlegen von Benachrichtigungen für alle fehlerhaften Datenqualitätsregeln für eine Spalte in der Tabelle, die für einen Datenqualitätsscan verwendet wird:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.column="CInteger" AND jsonPayload.result="FAILED"
Fehler bei der Datenqualität beheben
Für jeden Job mit fehlgeschlagenen Regeln auf Zeilenebene stellt Dataplex Universal Catalog eine Abfrage zum Abrufen der fehlgeschlagenen Datensätze bereit. Führen Sie diese Abfrage aus, um die Datensätze zu sehen, die nicht mit Ihrer Regel übereinstimmen.
Console
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Namen des Scans, dessen Datensätze Sie untersuchen möchten.
Klicken Sie auf den Tab Jobverlauf.
Klicken Sie auf die Job-ID des Jobs, bei dem Datenqualitätsfehler festgestellt wurden.
Suchen Sie im Fenster mit den Job-Ergebnissen, das sich öffnet, im Abschnitt Regeln nach der Spalte Abfrage zum Abrufen fehlgeschlagener Datensätze. Klicken Sie für die fehlgeschlagene Regel auf Abfrage in die Zwischenablage kopieren.
Führen Sie die Abfrage in BigQuery aus, um die Datensätze zu sehen, die zum Fehlschlagen des Jobs geführt haben.
gcloud
Nicht unterstützt.
REST
Mit dem APIs Explorer können Sie die Abfrage aufrufen, mit der fehlgeschlagene Datensätze für fehlgeschlagene Jobs abgerufen werden.
Datenqualitätsscan aktualisieren
Sie können verschiedene Einstellungen für einen vorhandenen Datenqualitätsscan bearbeiten, z. B. den Anzeigenamen, Filter und den Zeitplan.
Console
Rufen Sie in der Google Cloud Console die Seite Data Quality (Datenqualität) auf.
Klicken Sie in der Zeile mit dem Scan, den Sie bearbeiten möchten, auf das Dreipunkt-Menü > Bearbeiten.
Bearbeiten Sie die Werte.
Klicken Sie auf Speichern.
gcloud
Verwenden Sie den gcloud dataplex datascans update data-quality
-Befehl, um die Beschreibung eines Datenqualitäts-Scans zu aktualisieren:
gcloud dataplex datascans update data-quality DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
Ersetzen Sie Folgendes:
DATASCAN
: Der Name des Datenqualitäts-Scans, der aktualisiert werden soll.LOCATION
: Die Google Cloud Region, in der der Datenqualitäts-Scan erstellt wurde.DESCRIPTION
: Die neue Beschreibung für den Scan der Datenqualität.
REST
Verwenden Sie den APIs Explorer, um Ihren Datenqualitätsscan zu bearbeiten.
Datenqualitätsscan löschen
Console
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Scan, den Sie löschen möchten.
Klicken Sie auf Löschen.
gcloud
Verwenden Sie den Befehl gcloud dataplex datascans delete
, um einen Datenqualitätsscan zu löschen:
gcloud dataplex datascans delete DATASCAN \ --location=LOCATION \ --async
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des zu löschenden Datenqualitäts-Scans.LOCATION
: Die Google Cloud Region, in der der Datenqualitäts-Scan erstellt wurde.
REST
Löschen Sie den Datenqualitätsscan mit dem APIs Explorer.
Nächste Schritte
- Weitere Informationen zur Datenprofilerstellung
- Informationen zur Verwendung der Datenprofilerstellung
- Anleitung zum Verwalten von Datenqualitätsregeln als Code mit Terraform