Cloud Storage-Daten ermitteln und katalogisieren
In diesem Dokument wird beschrieben, wie Sie die automatische Erkennung von Dataplex Universal Catalog verwenden, eine Funktion in BigQuery, mit der Sie Daten in Cloud Storage-Buckets scannen können, um Metadaten zu extrahieren und zu katalogisieren. Im Rahmen des Erkennungsscans werden durch die automatische Erkennung BigLake- oder externe Tabellen für strukturierte Daten und Objekttabellen für unstrukturierte Daten erstellt. Diese zentralisierten Tabellendaten erleichtern KI-basierte Datenanalysen, Datensicherheit und Governance.
Wenn Sie die automatische Erkennung von Cloud Storage-Daten verwenden möchten, erstellen Sie einen Erkennungsscan und führen ihn aus.
Übersicht über Erkennungsscans
Bei einem Erkennungsscan wird Folgendes ausgeführt:
- Scannt die Daten im Cloud Storage-Bucket oder -Pfad.
- Gruppiert strukturierte und semistrukturierte Daten in Tabellen.
- Erfasst Metadaten wie den Tabellennamen, das Schema und die Partitionsdefinition.
- Erstellt und aktualisiert BigLake-, externe oder Objekttabellen in BigQuery mithilfe des Schemas und der Partitionsdefinition.
Bei unstrukturierten Daten wie Bildern und Videos werden beim Discovery-Scan Gruppen von Dateien erkannt und registriert, die denselben Medientyp wie die BigLake-Objekttabellen haben. Wenn gs://images/group1
beispielsweise GIF-Bilder und gs://images/group2
JPEG-Bilder enthält, werden beim Discovery-Scan zwei Filesets erkannt und registriert.
Bei strukturierten Daten wie Avro werden bei der Erkennungsgruppe Dateigruppen als externe BigLake-Tabellen registriert. Dateien werden nur erkannt, wenn sie sich in Ordnern mit demselben Datenformat und einem kompatiblen Schema befinden.
Der Discovery-Scan unterstützt die folgenden strukturierten und semistrukturierten Datenformate:
- Parquet
- Avro
- ORC
- JSON (nur das durch Zeilenumbruch getrennte Format)
- CSV (aber keine CSV-Dateien mit Kommentarzeilen)
Beim Discovery-Scan werden die folgenden Komprimierungsformate für strukturierte und semistrukturierte Daten unterstützt:
Interne Komprimierung für die folgenden Formate:
Komprimierung Beispiel für Dateiendung Unterstütztes Format GZIP .gz.parquet
Parquet LZ4 .lz4.parquet
Parquet Snappy .snappy.parquet
Parquet, ORC, Avro lzo .lzo.parquet
Parquet, ORC Externe Komprimierung für JSON- und CSV-Dateien:
- GZIP
- bzip2
Das Limit für die Anzahl der Tabellen, die von einem Discovery-Scan unterstützt werden, finden Sie unter Kontingente und Limits.
Die erkannten Tabellen werden in BigQuery als externe BigLake-Tabellen, BigLake-Objekttabellen oder externe Tabellen registriert. Dadurch werden die Daten zur Analyse in BigQuery verfügbar. Das Metadaten-Caching für BigLake-Tabellen und Objekttabellen ist ebenfalls aktiviert. Alle BigLake-Tabellen werden automatisch in Dataplex Universal Catalog aufgenommen, damit sie durchsucht und ermittelt werden können.
Hinweise
Enable the Dataplex API.
Erforderliche Rollen für das Dataplex Universal Catalog-Dienstkonto
Bevor Sie beginnen, weisen Sie dem Dataplex Universal Catalog-Dienstkonto in Ihrem Projekt die IAM-Berechtigungen zu.
service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
Ersetzen Sie PROJECT_NUMBER
durch das Projekt, in dem die Dataplex API aktiviert ist.
Bitten Sie Ihren Administrator, dem Dataplex-Dienstkonto die folgenden IAM-Rollen zuzuweisen, damit es die erforderlichen Berechtigungen zum Erstellen und Ausführen eines Discovery-Scans hat:
-
Dataplex Discovery Service Agent (
roles/dataplex.discoveryServiceAgent
) für den Speicher-Bucket -
Dataplex Discovery Publishing Service Agent (
roles/dataplex.discoveryPublishingServiceAgent
) für das Nutzerprojekt -
BigLake-Tabellen erstellen:
Dataplex Discovery BigLake Publishing Service Agent (
roles/dataplex.discoveryBigLakePublishingServiceAgent
) für die BigQuery-Verbindung
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen und Ausführen eines Discovery-Scans erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um einen Erkennungsscan zu erstellen und auszuführen:
-
bigquery.datasets.create
für das Datenquellenprojekt -
storage.buckets.get
für den Datenquellen-Bucket -
storage.objects.get
für den Datenquellen-Bucket -
storage.objects.list
für den Datenquellen-Bucket -
bigquery.datasets.get
für das Datenquellenprojekt -
Stellen Sie eine Verbindung her:
-
bigquery.connections.delegate
für die BigQuery-Verbindung -
bigquery.connections.use
für die BigQuery-Verbindung
-
Ihr Administrator kann dem Dataplex-Dienstkonto möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.
Erforderliche Rollen für das Dienstkonto der BigQuery-Verbindung
Damit das Dienstkonto der BigQuery-Verbindung die erforderlichen Berechtigungen zum Erstellen eines Discovery-Scans hat, bitten Sie Ihren Administrator, dem Dienstkonto der BigQuery-Verbindung die IAM-Rolle Dataplex Discovery Service Agent (roles/dataplex.discoveryServiceAgent
) für den Cloud Storage-Bucket zuzuweisen.
Diese vordefinierte Rolle enthält die Berechtigungen, die zum Erstellen eines Discovery-Scans erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um einen Erkennungsscan zu erstellen:
-
bigquery.datasets.create
für das Datenquellenprojekt -
storage.buckets.get
für den Datenquellen-Bucket -
storage.objects.get
für den Datenquellen-Bucket -
storage.objects.list
für den Datenquellen-Bucket -
bigquery.datasets.get
für das Datenquellenprojekt -
Stellen Sie eine Verbindung her:
-
bigquery.connections.delegate
für die BigQuery-Verbindung -
bigquery.connections.use
für die BigQuery-Verbindung
-
Ihr Administrator kann dem Dienstkonto für BigQuery-Verbindungen möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.
Erforderliche Rollen für Endnutzer
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für den Cloud Storage-Bucket zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen und Verwalten von Scans zur Datenermittlung benötigen:
-
Vollständiger Zugriff auf DataScan-Ressourcen:
Dataplex DataScan-Administrator (
roles/dataplex.dataScanAdmin
) – Ihr Projekt -
Schreibzugriff auf DataScan-Ressourcen:
Dataplex DataScan-Bearbeiter (
roles/dataplex.dataScanEditor
) – Ihr Projekt -
Lesezugriff auf DataScan-Ressourcen, mit Ausnahme der Ergebnisse:
Dataplex DataScan-Betrachter (
roles/dataplex.dataScanViewer
) – Ihr Projekt -
Lesezugriff auf DataScan-Ressourcen, einschließlich der Ergebnisse:
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer
) – Ihr Projekt
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen und Verwalten von Scans zur Datenermittlung erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um Datenermittlungsscans zu erstellen und zu verwalten:
-
So erstellen Sie einen DataScan:
dataplex.datascans.create
für Ihr Projekt -
So löschen Sie einen DataScan:
dataplex.datascans.delete
für Ihr Projekt oder eine DataScan-Ressource -
DataScan-Details ohne Ergebnisse ansehen:
dataplex.datascans.get
für eine DataScan-Ressource in Ihrem Projektor -
DataScan-Details einschließlich der Ergebnisse ansehen:
dataplex.datascans.getData
für Ihr Projekt oder eine DataScan-Ressource -
DataScans auflisten:
dataplex.datascans.list
für Ihr Projekt oder eine DataScan-Ressource -
DataScan ausführen:
dataplex.datascans.run
für Ihr Projekt oder eine DataScan-Ressource -
So aktualisieren Sie die Beschreibung eines DataScans:
dataplex.datascans.update
für eine DataScan-Ressource in Ihrem Projekt -
IAM-Berechtigungen des DataScan ansehen:
dataplex.datascans.getIamPolicy
für Ihr Projekt oder eine DataScan-Ressource -
Legen Sie die IAM-Berechtigungen für den DataScan fest:
dataplex.datascans.setIamPolicy
für Ihr Projekt oder eine DataScan-Ressource
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Erkennungsscan erstellen
Um Daten zu ermitteln, müssen Sie einen Erkennungsscan erstellen und ausführen. Sie können einen Zeitplan für den Scan festlegen oder den Scan bei Bedarf ausführen.
Wenn der Ermittlungsscan ausgeführt wird, wird in BigQuery ein neues Dataset erstellt, das dem gescannten Cloud Storage-Bucket entspricht. Der Name des BigQuery-Datasets ist derselbe wie der Name des Cloud Storage-Bucket. Ungültige Zeichen im Bucket-Namen werden durch einen Unterstrich ersetzt. Wenn der Datasetname nicht verfügbar ist, wird ein Suffix angehängt (z. B. _discovered_001
). Das Dataset enthält die externen BigLake- oder Nicht-BigLake-Tabellen, die durch den Discovery-Scan für die weitere Analyse erstellt wurden.
Console
Rufen Sie in der Google Cloud Console die Seite Metadaten-Kuration auf.
Klicken Sie auf dem Tab Cloud Storage-Erkennung auf Erstellen.
Konfigurieren Sie im Bereich Erkennungs-Scan erstellen die Details zu den zu scannenden Daten.
Geben Sie einen Namen für den Scan ein.
Geben Sie im Feld Scan-ID eine eindeutige ID ein, die den Konventionen für die Benennung von Ressourcen in Google Cloud entspricht. Wenn Sie keine ID angeben, wird die Scan-ID vom Erkennungsscan generiert.
Optional: Geben Sie eine Beschreibung des Scans ein.
Wenn Sie den Cloud Storage-Bucket angeben möchten, der die zu scannenden Dateien enthält, suchen Sie im Feld Bucket nach dem Bucket und wählen Sie ihn aus.
Optional: Definieren Sie die Daten, die in den Discovery-Scan einbezogen oder daraus ausgeschlossen werden sollen, indem Sie eine Liste von Glob-Mustern für die Dateifilterung angeben.
- Include: Wenn nur eine Teilmenge der Daten gescannt werden soll, geben Sie eine Liste von Glob-Mustern an, die mit den einzuschließenden Objekten übereinstimmen.
- Ausschließen: Geben Sie eine Liste von Glob-Mustern an, die mit den auszuschließenden Objekten übereinstimmen.
Wenn Sie beispielsweise
gs://test_bucket/foo/..
aus dem Discovery-Scan ausschließen möchten, geben Sie**/foo/**
als Ausschluss-Pfad ein. Anführungszeichen verursachen Fehler. Geben Sie**/foo/**
anstelle von"**/foo/**"
ein.Wenn Sie sowohl Einschluss- als auch Ausschlussmuster angeben, werden die Ausschlussmuster zuerst angewendet.
Optional: Wählen Sie unter Projekt das BigQuery-Dataset-Projekt aus, das die durch den Discovery-Scan erstellten externen BigLake- oder Nicht-BigLake-Tabellen enthält. Wenn nicht angegeben, wird das Dataset in dem Projekt erstellt, das den Cloud Storage-Bucket enthält.
Wählen Sie unter Typ des Standorts entweder Region oder Multiregion (je nach Verfügbarkeit) für das BigQuery-Dataset aus, in dem die Daten veröffentlicht werden.
Wenn Sie BigLake-Tabellen aus den gescannten Daten erstellen möchten, geben Sie im Feld Verbindungs-ID die ID Ihrer Google Cloud -Ressourcenverbindung an. Weitere Informationen finden Sie unter Google Cloud Ressourcenverbindungen in BigQuery.
Sie können eine neue Verbindungs-ID am selben Standort wie das BigQuery-Dataset erstellen, der mit dem Standort des Cloud Storage-Bucket kompatibel ist.
Wenn Sie keine Ressourcenverbindungs-ID angeben, werden beim Discovery-Scan externe Tabellen, die nicht von BigLake stammen, erstellt.
Konfigurieren Sie im Abschnitt Erkennungshäufigkeit, wann der Erkennungsscan ausgeführt werden soll:
Wiederholen: Der Scan wird nach einem vordefinierten Zeitplan ausgeführt. Geben Sie die Startzeit, die Tage, an denen der Scan ausgeführt werden soll, und die Häufigkeit an, z. B. „stündlich“.
On-Demand: Der Scan wird auf Anfrage ausgeführt.
Optional: Geben Sie im Abschnitt JSON- oder CSV-Spezifikationen an, wie JSON- und CSV-Dateien bei der Überprüfung verarbeitet werden sollen. Klicken Sie auf JSON- oder CSV-Spezifikationen.
- Wenn Sie JSON-Optionen konfigurieren möchten, wählen Sie JSON-Parsing-Optionen aktivieren aus.
- Disable type inference (Typinferenz deaktivieren): Gibt an, ob beim Scannen von Daten Datentypen abgeleitet werden sollen. Wenn Sie die Typinferenz für JSON-Daten deaktivieren, werden alle Spalten als ihre primitiven Typen registriert, z. B. als String, Zahl oder boolescher Wert.
- Codierungsformat: Die Zeichencodierung der Daten, z. B. UTF-8, US-ASCII oder ISO-8859-1. Wenn Sie keinen Wert angeben, wird standardmäßig UTF-8 verwendet.
- Wenn Sie CSV-Optionen konfigurieren möchten, aktivieren Sie CSV-Parsing-Optionen aktivieren.
- Disable type inference (Typinferenz deaktivieren): Gibt an, ob beim Scannen von Daten Datentypen abgeleitet werden sollen. Wenn Sie die Typinferenz für CSV-Daten deaktivieren, werden alle Spalten als Strings registriert.
- Überschriftenzeilen: Die Anzahl der Überschriftenzeilen, entweder
0
oder1
. Wenn Sie den Wert0
angeben, werden beim Discovery-Scan Überschriften abgeleitet und die Spaltennamen aus der Datei extrahiert. Der Standardwert ist0
. - Spaltentrennzeichen: Das Zeichen, das zum Trennen von Werten verwendet wird. Geben Sie ein einzelnes Zeichen,
\r
(Zeilenumbruch) oder\n
(neue Zeile) an. Der Standardwert ist ein Komma (,
). - Codierungsformat: Die Zeichencodierung der Daten, z. B.
UTF-8
,US-ASCII
oderISO-8859-1
. Wenn Sie keinen Wert angeben, wird standardmäßig UTF-8 verwendet.
- Wenn Sie JSON-Optionen konfigurieren möchten, wählen Sie JSON-Parsing-Optionen aktivieren aus.
Klicken Sie auf Erstellen (für einen geplanten Scan) oder Jetzt ausführen (für einen On-Demand-Scan).
Ein geplanter Scan wird gemäß dem von Ihnen festgelegten Zeitplan ausgeführt.
Ein On-Demand-Scan wird beim Erstellen einmal ausgeführt. Sie können ihn aber jederzeit ausführen. Es kann einige Minuten dauern, bis der Scan abgeschlossen ist.
gcloud
Verwenden Sie zum Erstellen eines Discovery-Scans den Befehl gcloud dataplex datascans create data-discovery
.
gcloud dataplex datascans create data-discovery --location=LOCATION --data-source-resource=BUCKET_PATH
Ersetzen Sie Folgendes:
LOCATION
: der Speicherort, an dem Sie den Discovery-Scan erstellen möchtenBUCKET_PATH
: der Cloud Storage-Pfad des Buckets, den Sie scannen möchten
REST
Verwenden Sie zum Erstellen eines Discovery-Scans die Methode dataScans.create
.
Veröffentlichte BigLake-Tabellen abfragen
Nachdem Sie den Ermittlungsscan ausgeführt haben, werden BigLake-Tabellen in einem neuen Dataset in BigQuery veröffentlicht. Die Tabellen stehen dann in BigQuery zur Analyse mit SQL oder in Dataproc mit Apache Spark oder HiveQL zur Verfügung.
SQL
Sie können Tabellen in BigQuery aufrufen oder abfragen. Weitere Informationen zum Ausführen von Abfragen in BigQuery finden Sie unter Abfrage ausführen.
Apache Spark
So fragen Sie BigLake-Tabellen mit Spark SQL in einem serverlosen Dataproc-Job ab:
Erstellen Sie ein PySpark-Skript, das dem folgenden Beispielskript ähnelt:
from pyspark.sql import SparkSession session = ( SparkSession.builder.appName("testing") .config("viewsEnabled","true") .config("materializationDataset", "DATASET_ID") .config("spark.hive.metastore.bigquery.project.id", "PROJECT_ID") .config("spark.hive.metastore.client.factory.class", "com.google.cloud.bigquery.metastore.client.BigQueryMetastoreClientFactory") .enableHiveSupport() .getOrCreate() ) session.sql("show databases").show() session.sql("use TABLE_NAME").show() session.sql("show tables").show() sql = "SELECT * FROM DATASET_ID.TABLE_ID LIMIT 10" df = session.read.format("bigquery").option("dataset", "DATASET_ID").load(sql) df.show()
Ersetzen Sie Folgendes:
DATASET_ID
: ID des Datasets, für das Nutzer die Berechtigung zum Erstellen habenPROJECT_ID
: ID des Projekts mit der BigLake-TabelleTABLE_NAME
: Name der BigLake-TabelleTABLE_ID
: ID der BigLake-Tabelle
Veröffentlichte BigLake-Tabellen verwalten
Veröffentlichte BigLake-Tabellen werden durch den Erkennungsscan in BigQuery erstellt und verwaltet. Standardmäßig werden beim Discovery-Scan jedes Mal, wenn die geplanten oder On-Demand-Scans ausgeführt werden, neue Daten ermittelt, Schemas abgeleitet und Schemas weiterentwickelt. Um anzugeben, dass Metadaten vom Scan verwaltet werden, werden Tabellen mit dem Label metadata-managed-mode
, das auf discovery-managed
festgelegt ist, veröffentlicht.
Wenn Sie das Schema und andere Metadaten wie CSV- oder JSON-Optionen selbst verwalten möchten, legen Sie das Label metadata-managed-mode
auf user_managed
fest. So bleibt das Schema unverändert, wenn der nächste Erkennungsscan ausgeführt wird. Dieser Ansatz kann in Szenarien nützlich sein, in denen das Schema, das durch den Discovery-Scan abgeleitet wird, falsch ist oder sich von dem unterscheidet, was für eine bestimmte Tabelle erwartet wird. Wenn das Label metadata-managed-mode
auf user_managed
festgelegt ist, können die Kosten gesenkt werden.
Wenn Sie das Label aktualisieren möchten, können Sie den Wert des Labelschlüssels
metadata-managed-mode
in user_managed
anstatt in discovery-managed
ändern. In diesem Fall wird das Schema der Tabelle durch den Erkennungsscan nicht aktualisiert, solange das Label user_managed
an die Tabelle angehängt ist.
Veröffentlichte BigLake-Tabellen aktualisieren
Bei BigLake-Tabellen, die mit den Discovery-Scan-Jobs mit der Standardkonfiguration veröffentlicht werden, werden das Schema und andere Metadaten automatisch bei jeder Ausführung des Discovery-Scan-Jobs in der geplanten Häufigkeit aktualisiert.
So aktualisieren Sie eine veröffentlichte BigLake-Tabelle:
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Maximieren Sie im Bereich Explorer Ihr Projekt und das Dataset und wählen Sie dann die Tabelle aus.
Prüfen Sie auf dem Tab Details im Bereich Labels, ob das Label metadata-managed-mode auf user_managed festgelegt ist. Wenn ein anderer Wert festgelegt ist, gehen Sie so vor:
Klicken Sie auf
Details bearbeiten.Geben Sie neben dem Schlüssel metadata-managed-mode im Feld value den Wert
user_managed
ein.
Veröffentlichte BigLake-Tabellen löschen
So löschen Sie eine veröffentlichte BigLake-Tabelle:
Datendateien für die Tabelle im Cloud Storage-Bucket löschen
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Maximieren Sie im Bereich Explorer Ihr Projekt und das Dataset und wählen Sie dann die Tabelle aus.
Prüfen Sie im Bereich Details im Abschnitt Labels, ob das Label metadata-managed-mode auf
user_managed
festgelegt ist. Wenn die Einstellung aufuser_managed
festgelegt ist, gehen Sie so vor:Klicken Sie auf Details bearbeiten
.Geben Sie neben dem Schlüssel metadata-managed-mode im Feld value den Wert
discovery-managed
ein.
Klicken Sie auf Ausführen. Der Discovery-Scan wird bei Bedarf ausgeführt.
Nachdem der Discovery-Scan ausgeführt wurde, wird die BigLake-Tabelle in BigQuery gelöscht und kann nicht mehr über Spark aufgelistet oder abgefragt werden.
Erkennungsscan on demand ausführen
Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan auf Anfrage auszuführen.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, den Sie ausführen möchten.
Klicken Sie auf Jetzt ausführen.
gcloud
Verwenden Sie den gcloud dataplex datascans run
-Befehl, um einen Erkennungsscan auszuführen:
gcloud dataplex datascans runDATASCAN
\ --location=LOCATION
Ersetzen Sie die folgenden Variablen:
LOCATION
: die Google Cloud Region, in der der Discovery-Scan erstellt wurde.DATASCAN
: der Name des Discovery-Scans.
REST
Wenn Sie einen Discovery-Scan auf Abruf ausführen möchten, verwenden Sie die dataScans.run
-Methode in der Dataplex API.
Erkennungsscans auflisten
Wählen Sie eine der folgenden Optionen aus, um Ihre Discovery-Scans aufzulisten.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Im Bereich Cloud Storage-Erkennung werden die im Projekt erstellten Erkennungsscans aufgeführt.
gcloud
gcloud dataplex datascans list --location=LOCATION --project=PROJECT_ID
Ersetzen Sie Folgendes:
LOCATION
: Der Standort Ihres Projekts.PROJECT_ID
: Ihre Google Cloud -Projekt-ID
REST
Wenn Sie die Liste der Discovery-Scans in Ihrem Projekt abrufen möchten, verwenden Sie die dataScans.list
-Methode in der Dataplex Universal Catalog API.
Erkennungsscan ansehen
Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan anzusehen.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, dessen Details Sie sich ansehen möchten.
- Im Abschnitt Scandetails werden Details zum Erkennungsscan angezeigt.
- Im Abschnitt Scanstatus werden die Ergebnisse des letzten Scanvorgangs angezeigt.
gcloud
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
Ersetzen Sie Folgendes:
JOB
: die Job-ID des Discovery-Scan-Jobs.LOCATION
: die Google Cloud Region, in der der Discovery-Scan erstellt wurde.DATASCAN
: Der Name des Discovery-Scans, zu dem der Job gehört.--view=FULL
: Ergebnis des Discovery-Scan-Jobs ansehen.
REST
Wenn Sie die Ergebnisse eines Data Discovery-Scans aufrufen möchten, verwenden Sie die dataScans.get
-Methode in der Dataplex Universal Catalog API.
Frühere Ergebnisse von Erkennungsscans ansehen
Wählen Sie eine der folgenden Optionen aus, um historische Ergebnisse von Discovery-Scans aufzurufen.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, dessen Details Sie sich ansehen möchten.
Klicken Sie auf den Bereich Scanverlauf. Im Bereich Scanverlauf finden Sie Informationen zu früheren Jobs, einschließlich der Anzahl der in jedem Job gescannten Datensätze, des Status der einzelnen Jobs und der Zeit, zu der die Jobs ausgeführt wurden.
Wenn Sie detaillierte Informationen zu einem Job aufrufen möchten, klicken Sie in der Spalte Job-ID auf den Job.
gcloud
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN
Ersetzen Sie Folgendes:
LOCATION
: die Google Cloud Region, in der der Discovery-Scan erstellt wurde.DATASCAN
: Der Name des Discovery-Scans, zu dem der Job gehört.
REST
Wenn Sie alle Jobs eines Discovery-Scans aufrufen möchten, verwenden Sie die dataScans.job/list
-Methode in der Dataplex Universal Catalog API.
Erkennungsscan aktualisieren
Wenn Sie den Zeitplan eines Erkennungsscans ändern möchten, z. B. von On-Demand zu wiederkehrend, aktualisieren Sie den Erkennungsscan.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung für den zu aktualisierenden Erkennungsscan auf Aktionen > Bearbeiten.
Bearbeiten Sie die Werte.
Klicken Sie auf Speichern.
gcloud
Verwenden Sie zum Aktualisieren eines Discovery-Scans den Befehl gcloud dataplex datascans update data-discovery
.
gcloud dataplex datascans update data-discovery SCAN_ID --location=LOCATION --description=DESCRIPTION
Ersetzen Sie Folgendes:
SCAN_ID
: die ID des Discovery-Scans, den Sie aktualisieren möchtenLOCATION
: die Google Cloud Region, in der der Discovery-Scan erstellt wurdeDESCRIPTION
: die neue Beschreibung für den Discovery-Scan
REST
Verwenden Sie die Methode dataScans.patch
in der Dataplex Universal Catalog API, um einen Discovery-Scan zu aktualisieren.
Erkennungsscan löschen
Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan zu löschen.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung für den zu löschenden Erkennungsscan auf Aktionen > Löschen.
Klicken Sie auf Löschen.
gcloud
gcloud dataplex datascans delete SCAN_ID --location=LOCATION --async
Ersetzen Sie Folgendes:
SCAN_ID
: die ID des Discovery-Scans, den Sie löschen möchten.LOCATION
: die Google Cloud Region, in der der Discovery-Scan erstellt wurde.
REST
Verwenden Sie zum Löschen eines Discovery-Scans die Methode dataScans.delete
in der Dataplex Universal Catalog API.