Auf dieser Seite erfahren Sie, wie Sie einen Datenprofilscan mit derGoogle Cloud Console, der Google Cloud CLI oder der REST API erstellen.
Weitere Informationen zu Datenprofilscans im Dataplex Universal Catalog finden Sie unter Datenprofilerstellung.
Hinweise
Aktivieren Sie die Dataplex API in der Google Cloud Console.
Berechtigungen
Zum Erstellen von Profilen für BigQuery-Tabellen benötigen Sie die folgenden Berechtigungen:
Wenn Sie einen Datenprofilscan für eine BigQuery-Tabelle ausführen möchten, benötigen Sie die Berechtigung zum Lesen der BigQuery-Tabelle und die Berechtigung zum Erstellen eines BigQuery-Jobs in dem Projekt, das zum Scannen der Tabelle verwendet wird.
Wenn sich die BigQuery-Tabelle und der Datenprofilscan in verschiedenen Projekten befinden, müssen Sie dem Dienstkonto des Dataplex Universal Catalog die Leseberechtigung für die entsprechende BigQuery-Tabelle erteilen.
Wenn die BigQuery-Daten in einem Dataplex Universal Catalog-Lake organisiert sind, benötigen Sie zum Erstellen eines Datenprofilscans die Dataplex Universal Catalog-Rollen
roles/dataplex.metadataReader
undroles/dataplex.viewer
. Dadurch werden die folgenden Berechtigungen gewährt:dataplex.lakes.list
dataplex.lakes.get
dataplex.zones.list
dataplex.zones.get
dataplex.entities.list
dataplex.entities.get
dataplex.operations.get
Wenn Sie eine externe BigQuery-Tabelle aus Cloud Storage scannen, weisen Sie dem Dataplex Universal Catalog-Dienstkonto entweder die Rolle „Cloud Storage-Objekt-Betrachter“ (
roles/storage.objectViewer
) oder die folgenden Berechtigungen für den Bucket zu:storage.buckets.get
storage.objects.get
Wenn Sie die Ergebnisse des Datenprofilscans auf den Seiten des BigQuery- und Dataplex Universal Catalog in derGoogle Cloud -Konsole für die Quelltabelle veröffentlichen möchten, muss Ihnen die IAM-Rolle „BigQuery Data Editor“ (
roles/bigquery.dataEditor
) für die Tabelle zugewiesen sein. Alternativ benötigen Sie alle folgenden Berechtigungen:bigquery.tables.get
bigquery.tables.update
bigquery.tables.updateData
bigquery.tables.delete
Wenn Sie die Scanergebnisse in eine BigQuery-Tabelle exportieren möchten, benötigt Ihr Dataplex Universal Catalog-Dienstkonto die Rolle „BigQuery-Datenbearbeiter“ (
roles/bigquery.dataEditor
). Dadurch werden die folgenden Berechtigungen gewährt:bigquery.datasets.get
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.update
bigquery.tables.updateData
Wenn Sie auf Spalten zugreifen müssen, die durch BigQuery-Zugriffsrichtlinien auf Spaltenebene geschützt sind, weisen Sie dem Dataplex Universal Catalog-Dienstkonto Berechtigungen für diese Spalten zu. Der Nutzer, der einen Daten-Scan erstellt oder aktualisiert, benötigt auch Berechtigungen für die Spalten.
Wenn für eine Tabelle BigQuery-Zugriffsrichtlinien auf Zeilenebene aktiviert sind, können Sie nur Zeilen scannen, die für das Dataplex Universal Catalog-Dienstkonto sichtbar sind. Die Zugriffsberechtigungen des einzelnen Nutzers werden für Richtlinien auf Zeilenebene nicht ausgewertet.
Rollen und Berechtigungen für die Datenprüfung
Um die Datenprofilerstellung zu verwenden, weist ein Projektadministrator entweder eine vordefinierte Rolle mit bereits erteilten Berechtigungen zu oder erteilt einzelne Berechtigungen. Die Rollen sind:
roles/dataplex.dataScanAdmin
: Vollständiger Zugriff aufDataScan
-Ressourcen.roles/dataplex.dataScanEditor
: Schreibzugriff aufDataScan
-Ressourcen.roles/dataplex.dataScanViewer
: Lesezugriff aufDataScan
-Ressourcen, mit Ausnahme der Ergebnisse.roles/dataplex.dataScanDataViewer
: Lesezugriff aufDataScan
-Ressourcen, einschließlich der Ergebnisse.
In der folgenden Tabelle sind die Berechtigungen für das Scannen von Daten aufgeführt:
Name der Berechtigung | Gewährt die Berechtigung für Folgendes: |
---|---|
dataplex.datascans.create |
DataScan erstellen |
dataplex.datascans.delete |
DataScan löschen |
dataplex.datascans.get |
Details zu DataScan ohne Ergebnisse ansehen |
dataplex.datascans.getData |
Details zu DataScan ansehen, einschließlich der Ergebnisse |
dataplex.datascans.list |
DataScan auflisten |
dataplex.datascans.run |
DataScan ausführen |
dataplex.datascans.update |
Beschreibung eines DataScan aktualisieren |
dataplex.datascans.getIamPolicy |
Aktuelle IAM-Berechtigungen für den Scan ansehen |
dataplex.datascans.setIamPolicy |
IAM-Berechtigungen für den Scan festlegen |
Datenprofilscan erstellen
Console
Rufen Sie in der Google Cloud Console die Seite Profil auf.
Klicken Sie auf Datenprofilscan erstellen.
Geben Sie einen Anzeigenamen ein.
Wenn Sie die automatisch generierte Scan-ID ändern möchten, geben Sie eine eigene an. Weitere Informationen finden Sie unter Konvention für Ressourcennamen.
Optional: Geben Sie eine Beschreibung ein.
Klicken Sie im Feld Tabelle auf Durchsuchen.
Wählen Sie eine Tabelle aus und klicken Sie auf Auswählen.
Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
- Wenn Sie Inkrementelle Daten auswählen, wählen Sie im Feld Zeitstempelspalte eine Spalte vom Typ
DATE
oderTIMESTAMP
aus Ihrer BigQuery-Tabelle aus, die monoton zunimmt und zum Identifizieren neuer Datensätze verwendet werden kann. Für Tabellen, die nach einer Spalte des TypsDATE
oderTIMESTAMP
partitioniert sind, empfehlen wir, die Partitionsspalte als Zeitstempelfeld zu verwenden.
- Wenn Sie Inkrementelle Daten auswählen, wählen Sie im Feld Zeitstempelspalte eine Spalte vom Typ
Wenn Sie die Probenahme auf Ihren Datenprofilscan anwenden möchten, wählen Sie in der Liste Probegröße einen Prozentsatz für die Probenahme aus.
- Wählen Sie einen Prozentwert zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus.
- Bei größeren Datasets sollten Sie einen niedrigeren Prozentsatz für die Stichprobenerhebung auswählen. Wenn Sie beispielsweise für eine Tabelle mit einem Umfang von etwa 1 PB einen Wert zwischen 0,1% und 1, 0 % eingeben, werden im Dataplex Universal Catalog 1–10 TB an Daten als Stichprobe verwendet.
- Sie benötigen mindestens 100 Datensätze in den Stichprobendaten, um ein Ergebnis zu erhalten.
- Bei inkrementellen Datenscans wird die Stichprobenerhebung in Dataplex Universal Catalog auf das letzte Inkrement angewendet.
Wenn Sie nach Zeile filtern möchten, klicken Sie auf Filter und wählen Sie Zeilen filtern aus.
Geben Sie einen gültigen SQL-Ausdruck ein, der in einer
WHERE
-Klausel in GoogleSQL-Syntax verwendet werden kann. Beispiel:col1 >= 0
.Der Filter kann eine Kombination aus SQL-Bedingungen für mehrere Spalten sein. Beispiel:
col1 >= 0 AND col2 < 10
.
Optional: Klicken Sie auf Filter. Klicken Sie das Kästchen Spalten filtern an.
a. Klicken Sie im Feld Spalten einbeziehen auf Durchsuchen.
- Geben Sie an, welche Spalten in den Profilscan einbezogen werden sollen. Wählen Sie die gewünschten Spalten aus, indem Sie die Kästchen aktivieren und auf Auswählen klicken.
b. Klicken Sie im Feld Spalten ausschließen auf Durchsuchen.
- Geben Sie an, welche Spalten vom Profilscan ausgeschlossen werden sollen. Wählen Sie die gewünschten Spalten aus, indem Sie die Kästchen aktivieren und auf Auswählen klicken.
Optional: Veröffentlichen Sie die Ergebnisse des Datenprofilscans in derGoogle Cloud -Konsole auf den Seiten „BigQuery“ und „Dataplex Universal Catalog“ für die Quelltabelle. Klicken Sie das Kästchen Ergebnisse in BigQuery und der Dataplex Catalog-UI veröffentlichen an.
Sie können die neuesten Scanergebnisse auf den BigQuery- und Dataplex Universal Catalog-Seiten für die Quelltabelle auf dem Tab Datenprofil ansehen. Informationen dazu, wie Sie Nutzern Zugriff auf die veröffentlichten Scanergebnisse gewähren, finden Sie unter Veröffentlichte Ergebnisse teilen.
Die Veröffentlichungsoption ist möglicherweise in den folgenden Fällen nicht verfügbar:
- Sie haben nicht die erforderlichen Berechtigungen für die Tabelle.
- Ein anderer Datenqualitätsscan ist für die Veröffentlichung von Ergebnissen festgelegt.
Weitere Informationen zu den Berechtigungen, die zum Aufrufen der veröffentlichten Ergebnisse erforderlich sind, finden Sie unter Berechtigungen.
Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Klicken Sie auf Durchsuchen, um ein vorhandenes BigQuery-Dataset zum Speichern der Ergebnisse des Datenprofilscans auszuwählen.
Wenn die angegebene Tabelle nicht vorhanden ist, wird sie von Dataplex Universal Catalog für Sie erstellt. Wenn Sie eine vorhandene Tabelle verwenden, muss sie mit dem Tabellenschema kompatibel sein, das weiter unten in diesem Abschnitt beschrieben wird.
Optional: Fügen Sie Labels hinzu. Labels sind
key:value
-Paare, mit denen Sie verwandte Objekte zusammen oder mit anderen Google Cloud Ressourcen gruppieren können.Wählen Sie unter Zeitplanoptionen eine der folgenden Optionen aus:
Wiederholen: Führen Sie den Scanjob für Ihr Datenprofil nach einem Zeitplan aus: täglich, wöchentlich, monatlich oder benutzerdefiniert. Geben Sie an, wie oft und zu welcher Uhrzeit der Scan ausgeführt werden soll. Wenn Sie „Benutzerdefiniert“ auswählen, verwenden Sie das Cron-Format, um den Zeitplan anzugeben.
On-Demand: Sie können Ihren Datenprofilscan erstellen und ihn jederzeit mit der Aktion „Jetzt ausführen“ ausführen.
Klicken Sie auf Erstellen.
gcloud
Führen Sie den folgenden Befehl aus, um einen Scan des Datenprofils zu erstellen:
gcloud dataplex datascans create data-profile DATASCAN \ --location=LOCATION \ --data-source-entity=DATA_SOURCE_ENTITY | --data-source-resource=DATA_SOURCE_RESOURCE
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des Datenprofil-Scans.LOCATION
: Die Google Cloud Region, in der der Datenprofilscan erstellt werden soll.DATA_SOURCE_ENTITY
: Die Dataplex Universal Catalog-Entität, die die Daten für den Datenprofilscan enthält. Beispiel:projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE
: Der Name der Ressource, die die Daten für den Datenprofilscan enthält. Beispiel://bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.
REST
Verwenden Sie den APIs Explorer, um einen Datenprofilscan zu erstellen.
Mehrere Datenprofilscans erstellen
Console
Rufen Sie in der Google Cloud Console die Seite Profil auf.
Klicken Sie auf Mehrere Profilscans erstellen.
Geben Sie ein ID-Präfix ein. In Dataplex Universal Catalog werden Scan-IDs automatisch anhand des angegebenen Präfixes und eindeutiger Suffixe generiert.
Geben Sie eine Beschreibung für alle Datenprofilscans ein.
Klicken Sie im Feld Dataset auf Durchsuchen. Wählen Sie ein Dataset aus, aus dem Sie Tabellen auswählen möchten. Klicken Sie auf Auswählen.
Wenn das Dataset multiregional ist, wählen Sie eine Region aus, in der die Datenscanprofile erstellt werden sollen.
Wählen Sie Gängige Konfigurationsoptionen aus:
Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
Wenn Sie die Probenahme auf Ihre Datenprofilscans anwenden möchten, wählen Sie in der Liste Probegröße einen Prozentsatz für die Probenahme aus.
Wählen Sie einen Prozentwert zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus.
Wenn Sie die Ergebnisse aller Scans sehen möchten, wählen Sie Veröffentlichung aus. Sie können die Ergebnisse auf dem Tab Profil in den BigQuery- oder Dataplex Universal Catalog-Tabellendetails ansehen. Prüfen Sie, ob Sie die Berechtigung
bigquery.tables.update
für die Quelltabellen haben.Wählen Sie unter Zeitplanoptionen eine der folgenden Optionen aus:
Wiederholen: Sie können Ihre Datenprofilscan-Jobs nach einem Zeitplan ausführen. Geben Sie an, wie oft der Scan ausgeführt werden soll (täglich, wöchentlich, monatlich oder benutzerdefiniert) und zu welcher Uhrzeit. Wenn Sie „Benutzerdefiniert“ auswählen, verwenden Sie das Cron-Format, um den Zeitplan anzugeben.
Auf Anfrage: Sie können Ihre Datenprofilscan-Jobs erstellen und jederzeit ausführen, indem Sie auf Ausführen klicken.
Klicken Sie bei der Option Tabellen auswählen auf Durchsuchen. Wählen Sie eine oder mehrere Tabellen aus, die gescannt werden sollen. Klicken Sie auf Auswählen.
Wählen Sie Weitere Einstellungen aus:
Wenn Sie die Ergebnisse Ihrer Datenprofilscans in einer BigQuery-Tabelle Ihrer Wahl speichern möchten, wählen Sie eine Tabelle unter Scanergebnisse in BigQuery-Tabelle exportieren aus. Dataplex Universal Catalog kopiert und speichert die Ergebnisse für jeden Scanjob automatisch in dieser Tabelle.
Klicken Sie auf Durchsuchen, um ein Dataset auszuwählen.
Geben Sie eine BigQuery-Tabelle ein, in der die Ergebnisse gespeichert werden sollen. Das kann eine vorhandene Tabelle sein, die von anderen Dataplex Universal Catalog-Datenprofilscans zum Speichern von Ergebnissen verwendet wird. Wenn keine Tabelle mit dem angegebenen Namen vorhanden ist, wird sie von Dataplex Universal Catalog erstellt.
Fügen Sie Labels hinzu, um Ihren Datenprofilscan zu kommentieren.
Klicken Sie auf Scan ausführen, um alle Scans zu erstellen und auszuführen. Diese Option ist nur für On-Demand-Scans verfügbar.
Klicken Sie auf Erstellen, um alle Scans zu erstellen.
gcloud
Nicht unterstützt.
REST
Nicht unterstützt.
Tabellenschema exportieren
Wenn Sie die Scanergebnisse des Datenprofils in eine vorhandene BigQuery-Tabelle exportieren möchten, muss diese mit dem folgenden Tabellenschema kompatibel sein:
Spaltenname | Datentyp der Spalte | Name des Unterfelds (falls zutreffend) |
Datentyp des Unterfelds | Modus | Beispiel |
---|---|---|---|---|---|
data_profile_scan | struct/record |
resource_name |
string |
nullable | //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan |
project_id |
string |
nullable | test-project |
||
location |
string |
nullable | us-central1 |
||
data_scan_id |
string |
nullable | test-datascan |
||
data_source | struct/record |
resource_name |
string |
nullable | Fall für Rechtspersönlichkeit://dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity
Tabellenfall: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
|
dataplex_entity_project_id |
string |
nullable | test-project |
||
dataplex_entity_project_number |
integer |
nullable | 123456789012 |
||
dataplex_lake_id |
string |
nullable | (Nur gültig, wenn die Quelle eine Entität ist)test-lake
|
||
dataplex_zone_id |
string |
nullable | (Nur gültig, wenn die Quelle eine Entität ist)test-zone |
||
dataplex_entity_id |
string |
nullable | (Nur gültig, wenn die Quelle eine Entität ist)test-entity |
||
table_project_id |
string |
nullable | dataplex-table |
||
table_project_number |
int64 |
nullable | 345678901234 |
||
dataset_id |
string |
nullable | (Nur gültig, wenn die Quelle eine Tabelle ist)test-dataset |
||
table_id |
string |
nullable | (Nur gültig, wenn die Quelle eine Tabelle ist)test-table |
||
data_profile_job_id | string |
nullable | caeba234-cfde-4fca-9e5b-fe02a9812e38 |
||
data_profile_job_configuration | json |
trigger |
string |
nullable | ondemand /schedule |
incremental |
boolean |
nullable | true /false |
||
sampling_percent |
float |
nullable | (0–100)20.0 (entspricht 20%) |
||
row_filter |
string |
nullable | col1 >= 0 AND col2 < 10 |
||
column_filter |
json |
nullable | {"include_fields":["col1","col2"], "exclude_fields":["col3"]} |
||
job_labels | json |
nullable | {"key1":value1} |
||
job_start_time | timestamp |
nullable | 2023-01-01 00:00:00 UTC |
||
job_end_time | timestamp |
nullable | 2023-01-01 00:00:00 UTC |
||
job_rows_scanned | integer |
nullable | 7500 |
||
column_name | string |
nullable | column-1 |
||
column_type | string |
nullable | string |
||
column_mode | string |
nullable | repeated |
||
percent_null | float |
nullable | (0,0–100,0)20.0 (entspricht 20%) |
||
percent_unique | float |
nullable | (0,0–100,0)92.5 |
||
min_string_length | integer |
nullable | (Nur gültig, wenn der Spaltentyp „String“ ist)10 |
||
max_string_length | integer |
nullable | (Nur gültig, wenn der Spaltentyp „String“ ist)4 |
||
average_string_length | float |
nullable | (Nur gültig, wenn der Spaltentyp „String“ ist)7.2 |
||
min_value | float |
nullable | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
max_value | float |
nullable | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
average_value | float |
nullable | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
standard_deviation | float |
nullable | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
quartile_lower | integer |
nullable | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
quartile_median | integer |
nullable | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
quartile_upper | integer |
nullable | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
top_n | struct/record - repeated |
value |
string |
nullable | "4009" |
count |
integer |
nullable | 20 |
||
percent |
float |
nullable | 10 (entspricht 10%) |
Einrichtung von Exporttabellen
Wenn Sie Daten in BigQueryExport-Tabellen exportieren, sollten Sie die folgenden Richtlinien beachten:
- Verwenden Sie für das Feld
resultsTable
das Format//bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}
. - Verwenden Sie eine BigQuery-Standardtabelle.
- Wenn die Tabelle beim Erstellen oder Aktualisieren des Scans nicht vorhanden ist, wird sie in Dataplex Universal Catalog für Sie erstellt.
- Standardmäßig wird die Tabelle täglich nach der Spalte
job_start_time
partitioniert. - Wenn Sie möchten, dass die Tabelle in anderen Konfigurationen partitioniert wird, oder wenn Sie die Partition nicht möchten, erstellen Sie die Tabelle mit dem erforderlichen Schema und den erforderlichen Konfigurationen neu und geben Sie die vorab erstellte Tabelle dann als Ergebnistabelle an.
- Die Ergebnistabelle muss sich am selben Speicherort wie die Quelltabelle befinden.
- Wenn VPC-SC für das Projekt konfiguriert ist, muss sich die Ergebnistabelle im selben VPC-SC-Perimeter wie die Quelltabelle befinden.
- Wenn die Tabelle während der Ausführung des Scans geändert wird, werden die Daten des aktuell ausgeführten Jobs in die vorherige Ergebnistabelle exportiert. Die Tabellenänderung wird erst beim nächsten Scanjob berücksichtigt.
- Ändern Sie das Tabellenschema nicht. Wenn Sie benutzerdefinierte Spalten benötigen, erstellen Sie eine Ansicht für die Tabelle.
- Um Kosten zu senken, legen Sie je nach Anwendungsfall ein Ablaufdatum für die Partition fest. Weitere Informationen finden Sie unter Partitionsablauf festlegen.
Datenprofilscan ausführen
Console
- Rufen Sie in der Google Cloud Console die Seite Profil des Dataplex Universal Catalog auf. Profil aufrufen
- Klicken Sie auf den Datenprofilscan, der ausgeführt werden soll.
- Klicken Sie auf Jetzt ausführen.
gcloud
Führen Sie den folgenden Befehl aus, um einen Datenprofilscan auszuführen:
gcloud dataplex datascans run DATASCAN \ --location=LOCATION
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des Datenprofil-Scans.LOCATION
: Die Google Cloud -Region, in der der Scan des Datenprofils erstellt wurde.
Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.
REST
Verwenden Sie den APIs Explorer, um Ihren Datenprofilscan auszuführen.
Ergebnisse des Jobs für Datenprofilscans ansehen
Console
Alle von Ihnen erstellten Datenprofilscans werden auf der Seite Profil angezeigt.
Klicken Sie auf den Namen des Scans, um die detaillierten Ergebnisse eines Scans aufzurufen.
Im Bereich Übersicht werden die Scanläufe, die Uhrzeit der einzelnen Läufe, die Anzahl der gescannten Tabelleneinträge und der Jobstatus angezeigt.
Der Bereich Konfiguration des Profilscans enthält Details zum Scan.
gcloud
Führen Sie den folgenden Befehl aus, um die Ergebnisse eines Datenprofilscan-Jobs aufzurufen:
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
Ersetzen Sie die folgenden Variablen:
JOB
: Die Job-ID des Jobs zum Scannen von Datenprofilen.LOCATION
: Die Google Cloud -Region, in der der Scan des Datenprofils erstellt wurde.DATASCAN
: Der Name des Datenprofilscans, zu dem der Job gehört.--view=FULL
: Wenn Sie das Ergebnis des Scanvorgangs sehen möchten, geben SieFULL
an.
Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.
REST
Mit dem APIs Explorer können Sie die Ergebnisse eines Datenprofilscans ansehen.
Letzten Job für Datenprofilscan ansehen
Console
Auf dem Tab Letzte Job-Ergebnisse finden Sie Informationen zum letzten Job, sofern mindestens ein Lauf erfolgreich abgeschlossen wurde. Dort werden die Spalten der gescannten Tabelle und Statistiken zu den Spalten aufgeführt, die beim Scan gefunden wurden.
gcloud
Führen Sie den folgenden Befehl aus, um den letzten erfolgreichen Scan des Datenprofils aufzurufen:
gcloud dataplex datascans describe DATASCAN \ --location=LOCATION \ --view=FULL
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des Datenprofil-Scans, für den Sie den letzten Job aufrufen möchten.LOCATION
: Die Google Cloud -Region, in der der Scan des Datenprofils erstellt wurde.--view=FULL
: Wenn Sie das Ergebnis des Scanvorgangs sehen möchten, geben SieFULL
an.
Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.
REST
Verwenden Sie den APIs Explorer, um den letzten Scanjob anzusehen.
Alle Jobs für Datenprofilscans ansehen
Im Dataplex Universal Catalog wird der Verlauf der Datenprofilscans der letzten 300 Jobs oder des letzten Jahres gespeichert, je nachdem, was zuerst eintritt.
Console
Auf dem Tab Jobverlauf finden Sie Informationen zu früheren Jobs. Dort sind alle Jobs, die Anzahl der in jedem Job gescannten Datensätze, der Jobstatus, die Jobausführungszeit und weitere Informationen aufgeführt.
Wenn Sie die detaillierten Informationen zu einem Job aufrufen möchten, klicken Sie auf einen der Jobs unter Job-ID.
gcloud
Führen Sie den folgenden Befehl aus, um alle Jobs eines Datenprofil-Scans aufzurufen:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN
Ersetzen Sie die folgenden Variablen:
LOCATION
: Die Google Cloud -Region, in der der Scan des Datenprofils erstellt wurde.DATASCAN
: Der Name des Datenprofil-Scans, für den Sie alle Jobs ansehen möchten.
Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.
REST
Mit dem APIs Explorer können Sie alle Scan-Jobs aufrufen.
Veröffentlichte Ergebnisse teilen
Wenn Sie beim Erstellen eines Datenprofilscans die Scanergebnisse auf den Seiten des BigQuery- und Dataplex-Universalkatalogs in derGoogle Cloud -Konsole veröffentlichen möchten, sind die neuesten Scanergebnisse auf diesen Seiten auf dem Tab Datenprofil verfügbar.
Sie können den Nutzern in Ihrer Organisation den Zugriff auf die veröffentlichten Scanergebnisse ermöglichen. So gewähren Sie Zugriff auf die Scanergebnisse:
Rufen Sie in der Google Cloud Console die Seite Profil auf.
Klicken Sie auf den Datenprofilscan, dessen Ergebnisse Sie freigeben möchten.
Wechseln Sie zum Tab Berechtigungen.
Klicken Sie auf Zugriff erlauben.
Fügen Sie im Feld Neue Hauptkonten das Hauptkonto hinzu, dem Sie Zugriff gewähren möchten.
Wählen Sie im Feld Rolle auswählen die Option Dataplex Universal Catalog DataScan DataViewer aus.
Klicken Sie auf Speichern.
So entfernen Sie den Zugriff auf die veröffentlichten Scanergebnisse für ein Hauptkonto:
Rufen Sie in der Google Cloud Console die Seite Profil auf.
Klicken Sie auf den Datenprofilscan, dessen Ergebnisse Sie freigeben möchten.
Wechseln Sie zum Tab Berechtigungen.
Wählen Sie das Hauptkonto aus, für das Sie die Rolle Dataplex Universal Catalog DataScan DataViewer entfernen möchten.
Klicken Sie auf Zugriff entfernen.
Klicken Sie auf Bestätigen.
Datenprofilscan aktualisieren
Console
Rufen Sie in der Google Cloud Console die Seite Profil auf.
Klicken Sie in der Zeile mit dem Scan, den Sie bearbeiten möchten, auf das Dreipunkt-Menü > Bearbeiten.
Bearbeiten Sie die Werte.
Klicken Sie auf Speichern.
gcloud
Führen Sie den folgenden Befehl aus, um einen Scan des Datenprofils zu aktualisieren:
gcloud dataplex datascans update data-profile DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des zu aktualisierenden Datenprofil-Scans.LOCATION
: Die Google Cloud -Region, in der der Scan des Datenprofils erstellt wurde.DESCRIPTION
: Die neue Beschreibung für den Scan des Datenprofils.
Informationen zu den Spezifikationsfeldern, die aktualisiert werden müssen, finden Sie in der Referenz zur gcloud CLI.
REST
Verwenden Sie den APIs Explorer, um einen Datenprofilscan zu bearbeiten.
Datenprofilscan löschen
Console
Rufen Sie in der Google Cloud Console die Seite Profil auf. Dataplex Universal Catalog-Profil aufrufen
Klicken Sie auf den Scan, den Sie löschen möchten.
Klicken Sie auf Löschen.
gcloud
Führen Sie den folgenden Befehl aus, um einen Scan des Datenprofils zu löschen:
gcloud dataplex datascans delete \ DATASCAN --location=LOCATION \ --async
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des zu löschenden Datenprofil-Scans.LOCATION
: Die Google Cloud -Region, in der der Scan des Datenprofils erstellt wurde.
Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.
REST
Verwenden Sie den APIs Explorer, um Ihren Datenprofilscan zu löschen.
Nächste Schritte
- Data Insights in BigQuery generieren
- Weitere Informationen zur Datenprofilerstellung
- Weitere Informationen zur automatischen Datenqualität
- Informationen zur Verwendung der automatischen Datenqualität