Diese Seite wurde von der Cloud Translation API übersetzt.

Cloud Storage-Daten ermitteln und katalogisieren

In diesem Dokument wird beschrieben, wie Sie die automatische Erkennung von Dataplex Universal Catalog verwenden. Mit dieser BigQuery-Funktion können Sie Daten in Cloud Storage-Buckets scannen, um Metadaten zu extrahieren und zu katalogisieren. Im Rahmen des Erkennungsscans werden durch die automatische Erkennung BigLake- oder externe Tabellen für strukturierte Daten und Objekttabellen für unstrukturierte Daten erstellt. Diese zentralisierten Tabellendaten erleichtern KI-basierte Datenanalysen, Datensicherheit und Governance.

Wenn Sie die automatische Erkennung von Cloud Storage-Daten verwenden möchten, erstellen Sie einen Erkennungsscan und führen ihn aus.

Die automatische Erkennung wird auch als eigenständige Erkennung bezeichnet.

Übersicht über Erkennungsscans

Bei einem Erkennungsscan wird Folgendes ausgeführt:

Scannt die Daten im Cloud Storage-Bucket oder -Pfad.
Gruppiert strukturierte und semistrukturierte Daten in Tabellen.
Erfasst Metadaten wie den Tabellennamen, das Schema und die Partitionsdefinition.
Erstellt und aktualisiert BigLake-, externe oder Objekttabellen in BigQuery anhand des Schemas und der Partitionsdefinition.

Bei unstrukturierten Daten wie Bildern und Videos werden beim Discovery-Scan Gruppen von Dateien erkannt und registriert, die denselben Medientyp wie die BigLake-Objekttabellen haben. Wenn gs://images/group1 beispielsweise GIF-Bilder und gs://images/group2 JPEG-Bilder enthält, werden beim Discovery-Scan zwei Filesets erkannt und registriert.

Bei strukturierten Daten wie Avro werden bei der Erkennungsgruppe Dateigruppen als externe BigLake-Tabellen registriert. Dateien werden nur erkannt, wenn sie sich in Ordnern mit demselben Datenformat und einem kompatiblen Schema befinden.

Der Discovery-Scan unterstützt die folgenden strukturierten und semistrukturierten Datenformate:

Parquet
Avro
ORC
JSON (nur das durch Zeilenumbruch getrennte Format)
CSV (aber keine CSV-Dateien mit Kommentarzeilen)

Beim Discovery-Scan werden die folgenden Komprimierungsformate für strukturierte und semistrukturierte Daten unterstützt:

Interne Komprimierung für die folgenden Formate:

Komprimierung Beispiel für Dateiendung Unterstütztes Format

GZIP .gz.parquet Parquet

LZ4 .lz4.parquet Parquet

Snappy .snappy.parquet Parquet, ORC, Avro

lzo .lzo.parquet Parquet, ORC
Externe Komprimierung für JSON- und CSV-Dateien:
- GZIP
- bzip2

Komprimierung	Beispiel für Dateiendung	Unterstütztes Format
GZIP	`.gz.parquet`	Parquet
LZ4	`.lz4.parquet`	Parquet
Snappy	`.snappy.parquet`	Parquet, ORC, Avro
lzo	`.lzo.parquet`	Parquet, ORC

Das Limit für die Anzahl der Tabellen, die von einem Discovery-Scan unterstützt werden, finden Sie unter Kontingente und Limits.

Die erkannten Tabellen werden in BigQuery als externe BigLake-Tabellen, BigLake-Objekttabellen oder externe Tabellen registriert. Dadurch werden die Daten zur Analyse in BigQuery verfügbar. Das Metadaten-Caching für BigLake-Tabellen und Objekttabellen ist ebenfalls aktiviert. Alle BigLake-Tabellen werden automatisch in Dataplex Universal Catalog aufgenommen, damit sie durchsucht und ermittelt werden können.

Hinweise

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Erforderliche Rollen für das Dataplex Universal Catalog-Dienstkonto

Bevor Sie beginnen, weisen Sie dem Dataplex Universal Catalog-Dienstkonto in Ihrem Projekt die IAM-Berechtigungen zu.

  service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com

Ersetzen Sie PROJECT_NUMBER durch das Projekt, in dem die Dataplex API aktiviert ist.

Bitten Sie Ihren Administrator, dem Dataplex-Dienstkonto die folgenden IAM-Rollen zuzuweisen, damit es die erforderlichen Berechtigungen zum Erstellen und Ausführen eines Discovery-Scans hat:

Dataplex Discovery Service Agent (roles/dataplex.discoveryServiceAgent) für den Speicher-Bucket
Dataplex Discovery Publishing Service Agent (roles/dataplex.discoveryPublishingServiceAgent) für das Nutzerprojekt
BigLake-Tabellen erstellen: Dataplex Discovery BigLake Publishing Service Agent (roles/dataplex.discoveryBigLakePublishingServiceAgent) für die BigQuery-Verbindung

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen und Ausführen eines Discovery-Scans erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um einen Erkennungsscan zu erstellen und auszuführen:

bigquery.datasets.create für das Datenquellenprojekt
storage.buckets.get für den Datenquellen-Bucket
storage.objects.get für den Datenquellen-Bucket
storage.objects.list für den Datenquellen-Bucket
bigquery.datasets.get für das Datenquellenprojekt
Stellen Sie eine Verbindung her:
- bigquery.connections.delegate für die BigQuery-Verbindung
- bigquery.connections.use für die BigQuery-Verbindung

Ihr Administrator kann dem Dataplex-Dienstkonto möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Erforderliche Rollen für das Dienstkonto der BigQuery-Verbindung

Damit das Dienstkonto der BigQuery-Verbindung die erforderlichen Berechtigungen zum Erstellen eines Discovery-Scans hat, bitten Sie Ihren Administrator, dem Dienstkonto der BigQuery-Verbindung die IAM-Rolle Dataplex Discovery Service Agent (roles/dataplex.discoveryServiceAgent) für den Cloud Storage-Bucket zuzuweisen.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierte Rolle enthält die Berechtigungen, die zum Erstellen eines Discovery-Scans erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um einen Erkennungsscan zu erstellen:

bigquery.datasets.create für das Datenquellenprojekt
storage.buckets.get für den Datenquellen-Bucket
storage.objects.get für den Datenquellen-Bucket
storage.objects.list für den Datenquellen-Bucket
bigquery.datasets.get für das Datenquellenprojekt
Stellen Sie eine Verbindung her:
- bigquery.connections.delegate für die BigQuery-Verbindung
- bigquery.connections.use für die BigQuery-Verbindung

Ihr Administrator kann dem Dienstkonto für BigQuery-Verbindungen möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Erforderliche Rollen für Endnutzer

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für den Cloud Storage-Bucket zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen und Verwalten von Scans zur Datenermittlung benötigen:

Vollständiger Zugriff auf DataScan-Ressourcen: Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin) – Ihr Projekt
Schreibzugriff auf DataScan-Ressourcen: Dataplex DataScan-Bearbeiter (roles/dataplex.dataScanEditor) – Ihr Projekt
Lesezugriff auf DataScan-Ressourcen, mit Ausnahme der Ergebnisse: Dataplex DataScan-Betrachter (roles/dataplex.dataScanViewer) – Ihr Projekt
Lesezugriff auf DataScan-Ressourcen, einschließlich der Ergebnisse: Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) – Ihr Projekt

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen und Verwalten von Scans zur Datenermittlung erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Datenermittlungsscans zu erstellen und zu verwalten:

So erstellen Sie einen DataScan: dataplex.datascans.create für Ihr Projekt
So löschen Sie einen DataScan: dataplex.datascans.delete für Ihr Projekt oder eine DataScan-Ressource
DataScan-Details ohne Ergebnisse ansehen: dataplex.datascans.get für eine DataScan-Ressource in Ihrem Projektor
DataScan-Details ansehen, einschließlich von Ergebnissen: dataplex.datascans.getData für Ihr Projekt oder eine DataScan-Ressource
DataScans auflisten: dataplex.datascans.list für Ihr Projekt oder eine DataScan-Ressource
So führen Sie einen DataScan aus: dataplex.datascans.run für Ihr Projekt oder eine DataScan-Ressource
So aktualisieren Sie die Beschreibung eines DataScans: dataplex.datascans.update für Ihr Projekt oder eine DataScan-Ressource
IAM-Berechtigungen des DataScan ansehen: dataplex.datascans.getIamPolicy für Ihr Projekt oder eine DataScan-Ressource
Legen Sie die IAM-Berechtigungen für den DataScan fest: dataplex.datascans.setIamPolicy für Ihr Projekt oder eine DataScan-Ressource.

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Erkennungsscan erstellen

Um Daten zu ermitteln, müssen Sie einen Erkennungsscan erstellen und ausführen. Sie können einen Zeitplan für den Scan festlegen oder den Scan bei Bedarf ausführen.

Wenn der Ermittlungsscan ausgeführt wird, wird in BigQuery ein neues Dataset erstellt, das dem gescannten Cloud Storage-Bucket entspricht. Der Name des BigQuery-Datasets ist derselbe wie der Name des Cloud Storage-Bucket. Ungültige Zeichen im Bucket-Namen werden durch einen Unterstrich ersetzt. Wenn der Datasetname nicht verfügbar ist, wird ein Suffix angehängt (z. B. _discovered_001). Das Dataset enthält die externen BigLake- oder Nicht-BigLake-Tabellen, die durch den Discovery-Scan für die weitere Analyse erstellt wurden.

Konsole

Rufen Sie in der Google Cloud Console die Seite Metadaten-Kurierung auf.

Zur Metadatenkuratierung
Klicken Sie auf dem Tab Cloud Storage-Erkennung auf Erstellen.
Konfigurieren Sie im Bereich Erkennungs-Scan erstellen die Details zu den zu scannenden Daten.
Geben Sie einen Namen für den Scan ein.
Geben Sie im Feld Scan-ID eine eindeutige ID ein, die den Konventionen für die Benennung von Ressourcen in Google Cloud entspricht. Wenn Sie keine ID angeben, wird die Scan-ID vom Erkennungsscan generiert.
Optional: Geben Sie eine Beschreibung des Scans ein.
Wenn Sie den Cloud Storage-Bucket angeben möchten, der die zu scannenden Dateien enthält, suchen Sie im Feld Bucket nach dem Bucket und wählen Sie ihn aus.
Optional: Definieren Sie die Daten, die in den Discovery-Scan einbezogen oder daraus ausgeschlossen werden sollen, indem Sie eine Liste von Glob-Mustern für die Dateifilterung angeben.
- Include: Wenn nur eine Teilmenge der Daten gescannt werden soll, geben Sie eine Liste von Glob-Mustern an, die mit den einzuschließenden Objekten übereinstimmen.
- Ausschließen: Geben Sie eine Liste von Glob-Mustern an, die mit den auszuschließenden Objekten übereinstimmen.
Wenn Sie beispielsweise gs://test_bucket/foo/.. aus dem Discovery-Scan ausschließen möchten, geben Sie **/foo/** als Ausschluss-Pfad ein. Anführungszeichen verursachen Fehler. Geben Sie **/foo/** anstelle von "**/foo/**" ein.

Wenn Sie sowohl Einschluss- als auch Ausschlussmuster angeben, werden die Ausschlussmuster zuerst angewendet.
Optional: Wählen Sie unter Projekt das BigQuery-Dataset-Projekt aus, das die durch den Discovery-Scan erstellten externen BigLake- oder Nicht-BigLake-Tabellen enthält. Wenn nicht angegeben, wird das Dataset in dem Projekt erstellt, das den Cloud Storage-Bucket enthält.
Wählen Sie unter Typ des Standorts entweder Region oder Multiregion (je nach Verfügbarkeit) für das BigQuery-Dataset aus, in dem die Daten veröffentlicht werden.
Wenn Sie BigLake-Tabellen aus den gescannten Daten erstellen möchten, geben Sie im Feld Verbindungs-ID die ID Ihrer Google Cloud -Ressourcenverbindung an. Weitere Informationen finden Sie unter Google Cloud Ressourcenverbindungen in BigQuery.

Sie können eine neue Verbindungs-ID am selben Standort wie das BigQuery-Dataset erstellen, der mit dem Standort des Cloud Storage-Bucket kompatibel ist.

Wenn Sie keine Ressourcenverbindungs-ID angeben, werden beim Discovery-Scan externe Tabellen, die nicht von BigLake stammen, erstellt.
Konfigurieren Sie im Abschnitt Erkennungshäufigkeit, wann der Erkennungsscan ausgeführt werden soll:
- Wiederholen: Der Scan wird nach einem vordefinierten Zeitplan ausgeführt. Geben Sie die Startzeit, die Tage, an denen der Scan ausgeführt werden soll, und die Häufigkeit an, z. B. stündlich.
- On-Demand: Der Scan wird auf Anfrage ausgeführt.
Optional: Geben Sie im Abschnitt JSON- oder CSV-Spezifikationen an, wie JSON- und CSV-Dateien bei der Überprüfung verarbeitet werden sollen. Klicken Sie auf JSON- oder CSV-Spezifikationen.
1. Wenn Sie JSON-Optionen konfigurieren möchten, wählen Sie JSON-Parsing-Optionen aktivieren aus.
  - Disable type inference (Typinferenz deaktivieren): Gibt an, ob beim Scannen von Daten Datentypen abgeleitet werden sollen. Wenn Sie die Typinferenz für JSON-Daten deaktivieren, werden alle Spalten als ihre primitiven Typen registriert, z. B. als String, Zahl oder boolescher Wert.
  - Codierungsformat: Die Zeichencodierung der Daten, z. B. UTF-8, US-ASCII oder ISO-8859-1. Wenn Sie keinen Wert angeben, wird standardmäßig UTF-8 verwendet.
2. Wenn Sie CSV-Optionen konfigurieren möchten, aktivieren Sie CSV-Parsing-Optionen aktivieren.
  - Disable type inference (Typinferenz deaktivieren): Gibt an, ob beim Scannen von Daten Datentypen abgeleitet werden sollen. Wenn Sie die Typinferenz für CSV-Daten deaktivieren, werden alle Spalten als Strings registriert.
  - Überschriftenzeilen: Die Anzahl der Überschriftenzeilen, entweder 0 oder 1. Wenn Sie den Wert 0 angeben, werden beim Discovery-Scan Überschriften abgeleitet und die Spaltennamen aus der Datei extrahiert. Der Standardwert ist 0.
  - Spaltentrennzeichen: Das Zeichen, das zum Trennen von Werten verwendet wird. Geben Sie ein einzelnes Zeichen, \r (Zeilenumbruch) oder \n (neue Zeile) an. Der Standardwert ist ein Komma (,).
  - Codierungsformat: die Zeichencodierung der Daten, z. B. UTF-8, US-ASCII oder ISO-8859-1. Wenn Sie keinen Wert angeben, wird standardmäßig UTF-8 verwendet.
Klicken Sie auf Erstellen (für einen geplanten Scan) oder Jetzt ausführen (für einen On-Demand-Scan).

Ein geplanter Scan wird gemäß dem von Ihnen festgelegten Zeitplan ausgeführt.

Ein On-Demand-Scan wird beim Erstellen einmal ausgeführt. Sie können ihn aber jederzeit starten. Es kann einige Minuten dauern, bis der Erkennungsscan ausgeführt wird.

gcloud

Verwenden Sie zum Erstellen eines Discovery-Scans den Befehl gcloud dataplex datascans create data-discovery.

gcloud dataplex datascans create data-discovery --location=LOCATION
--data-source-resource=BUCKET_PATH

Ersetzen Sie Folgendes:

LOCATION: der Speicherort, an dem Sie den Discovery-Scan erstellen möchten
BUCKET_PATH: der Cloud Storage-Pfad des Buckets, den Sie scannen möchten

REST

Verwenden Sie zum Erstellen eines Discovery-Scans die Methode dataScans.create.

Veröffentlichte BigLake-Tabellen abfragen

Nachdem Sie den Ermittlungsscan ausgeführt haben, werden BigLake-Tabellen in einem neuen Dataset in BigQuery veröffentlicht. Die Tabellen stehen dann in BigQuery zur Analyse mit SQL oder in Dataproc mit Apache Spark oder HiveQL zur Verfügung.

SQL

Sie können Tabellen in BigQuery aufrufen oder abfragen. Weitere Informationen zum Ausführen von Abfragen in BigQuery finden Sie unter Abfrage ausführen.

Apache Spark

So fragen Sie BigLake-Tabellen mit Spark SQL in einem serverlosen Dataproc-Job ab:

Erstellen Sie ein PySpark-Skript, das dem folgenden Beispielskript ähnelt:

from pyspark.sql import SparkSession
session = (
  SparkSession.builder.appName("testing")
    .config("viewsEnabled","true")
    .config("materializationDataset", "DATASET_ID")
    .config("spark.hive.metastore.bigquery.project.id", "PROJECT_ID")
    .config("spark.hive.metastore.client.factory.class", "com.google.cloud.bigquery.metastore.client.BigQueryMetastoreClientFactory")
    .enableHiveSupport()
    .getOrCreate()
)

session.sql("show databases").show()
session.sql("use TABLE_NAME").show()
session.sql("show tables").show()

sql = "SELECT * FROM DATASET_ID.TABLE_ID LIMIT 10"
df = session.read.format("bigquery").option("dataset", "DATASET_ID").load(sql)
df.show()

Ersetzen Sie Folgendes:

DATASET_ID: ID des Datasets, für das Nutzer die Berechtigung zum Erstellen haben
PROJECT_ID: ID des Projekts mit der BigLake-Tabelle
TABLE_NAME: Name der BigLake-Tabelle
TABLE_ID: ID der BigLake-Tabelle

Batchjob senden

Veröffentlichte BigLake-Tabellen verwalten

Veröffentlichte BigLake-Tabellen werden durch den Erkennungsscan in BigQuery erstellt und verwaltet. Standardmäßig werden beim Erkennungsscan jedes Mal, wenn die geplanten oder On-Demand-Scans ausgeführt werden, neue Daten erkannt, Schemas abgeleitet und Schemas weiterentwickelt. Um anzugeben, dass Metadaten vom Scan verwaltet werden, werden Tabellen mit dem Label metadata-managed-mode, das auf discovery-managed festgelegt ist, veröffentlicht.

Wenn Sie das Schema und andere Metadaten wie CSV- oder JSON-Optionen selbst verwalten möchten, legen Sie das Label metadata-managed-mode auf user_managed fest. So bleibt das Schema unverändert, wenn der nächste Erkennungsscan ausgeführt wird. Dieser Ansatz kann in Szenarien nützlich sein, in denen das Schema, das durch den Discovery-Scan abgeleitet wird, falsch ist oder sich von dem unterscheidet, was für eine bestimmte Tabelle erwartet wird. Wenn das Label metadata-managed-mode auf user_managed festgelegt ist, können die Kosten gesenkt werden.

Wenn Sie das Label aktualisieren möchten, können Sie den Wert des Labelschlüssels metadata-managed-mode in user_managed anstatt in discovery-managed ändern. In diesem Fall wird das Schema der Tabelle durch den Erkennungsscan nicht aktualisiert, solange das Label user_managed an die Tabelle angehängt ist.

Veröffentlichte BigLake-Tabellen aktualisieren

Bei BigLake-Tabellen, die mit den Discovery-Scanjobs mit der Standardkonfiguration veröffentlicht werden, werden das Schema und andere Metadaten automatisch bei jeder Ausführung des Discovery-Scanjobs in der geplanten Häufigkeit aktualisiert.

So aktualisieren Sie eine veröffentlichte BigLake-Tabelle:

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen
Ein oder mehrere Tabellenattribute aktualisieren
Maximieren Sie im Bereich Explorer Ihr Projekt und das Dataset und wählen Sie dann die Tabelle aus.
Prüfen Sie auf dem Tab Details im Bereich Labels, ob das Label metadata-managed-mode auf user_managed festgelegt ist. Wenn ein anderer Wert festgelegt ist, gehen Sie so vor:
1. Klicken Sie auf Details bearbeiten.
2. Geben Sie neben dem Schlüssel metadata-managed-mode im Feld value den Wert user_managed ein.

Veröffentlichte BigLake-Tabellen löschen

So löschen Sie eine veröffentlichte BigLake-Tabelle:

Datendateien für die Tabelle im Cloud Storage-Bucket löschen
Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen
Maximieren Sie im Bereich Explorer Ihr Projekt und das Dataset und wählen Sie dann die Tabelle aus.
Prüfen Sie im Bereich Details im Abschnitt Labels, ob das Label metadata-managed-mode auf user_managed festgelegt ist. Wenn die Einstellung auf user_managed festgelegt ist, gehen Sie so vor:
1. Klicken Sie auf Details bearbeiten .
2. Geben Sie neben dem Schlüssel metadata-managed-mode im Feld value den Wert discovery-managed ein.
  
  Hinweis :Wenn das Label metadata-managed-mode auf user_managed festgelegt ist, werden die Tabellenmetadaten durch den Discovery-Scan nicht überschrieben. Daher wird die Tabelle nicht gelöscht.
Klicken Sie auf Ausführen. Der Discovery-Scan wird bei Bedarf ausgeführt.

Nachdem der Discovery-Scan ausgeführt wurde, wird die BigLake-Tabelle in BigQuery gelöscht und kann nicht mehr über Spark aufgelistet oder abgefragt werden.

Erkennungsscan on demand ausführen

Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan auf Anfrage auszuführen.

Konsole

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, den Sie ausführen möchten.
Klicken Sie auf Jetzt ausführen.

gcloud

Verwenden Sie den gcloud dataplex datascans run-Befehl, um einen Erkennungsscan auszuführen:

gcloud dataplex datascans run DATASCAN \
  --location=LOCATION

Ersetzen Sie die folgenden Variablen:

LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.
DATASCAN: Der Name des Erkennungsscans.

REST

Wenn Sie einen Discovery-Scan auf Abruf ausführen möchten, verwenden Sie die dataScans.run-Methode in der Dataplex API.

Erkennungsscans auflisten

Wählen Sie eine der folgenden Optionen aus, um Ihre Discovery-Scans aufzulisten.

Konsole

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Im Bereich Cloud Storage-Erkennung werden die im Projekt erstellten Erkennungsscans aufgeführt.

gcloud

gcloud dataplex datascans list --location=LOCATION --project=PROJECT_ID

Ersetzen Sie Folgendes:

LOCATION: Der Standort Ihres Projekts.
PROJECT_ID: Ihre Google Cloud -Projekt-ID

REST

Wenn Sie die Liste der Discovery-Scans in Ihrem Projekt abrufen möchten, verwenden Sie die dataScans.list-Methode in der Dataplex API.

Erkennungsscan ansehen

Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan anzusehen.

Konsole

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, dessen Details Sie sich ansehen möchten.
- Im Bereich Scandetails werden Details zum Erkennungsscan angezeigt.
- Im Abschnitt Scanstatus werden die Ergebnisse des letzten Scanjobs angezeigt.

gcloud

gcloud dataplex datascans jobs describe JOB \
    --location=LOCATION \
    --datascan=DATASCAN \
    --view=FULL

Ersetzen Sie Folgendes:

JOB: Die Job-ID des Discovery-Scan-Jobs.
LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.
DATASCAN: Der Name des Discovery-Scans, zu dem der Job gehört.
--view=FULL: Das Ergebnis des Discovery-Scanjobs ansehen.

REST

Wenn Sie die Ergebnisse eines Scans zur Datenermittlung ansehen möchten, verwenden Sie die Methode dataScans.get in der Dataplex API.

Frühere Ergebnisse von Erkennungsscans ansehen

Wählen Sie eine der folgenden Optionen aus, um historische Ergebnisse von Discovery-Scans aufzurufen.

Konsole

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, dessen Details Sie sich ansehen möchten.
Klicken Sie auf den Bereich Scanverlauf. Im Bereich Scanverlauf finden Sie Informationen zu früheren Jobs, einschließlich der Anzahl der in jedem Job gescannten Datensätze, des Status jedes Jobs und der Uhrzeit, zu der die Jobs ausgeführt wurden.
Wenn Sie detaillierte Informationen zu einem Job aufrufen möchten, klicken Sie in der Spalte Job-ID auf den Job.

gcloud

gcloud dataplex datascans jobs list \
    --location=LOCATION \
    --datascan=DATASCAN

Ersetzen Sie Folgendes:

LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.
DATASCAN: Der Name des Discovery-Scans, zu dem der Job gehört.

REST

Wenn Sie alle Jobs eines Erkennungsscans aufrufen möchten, verwenden Sie die dataScans.job/list-Methode in der Dataplex API.

Erkennungsscan aktualisieren

Wenn Sie den Zeitplan eines Erkennungsscans ändern möchten, z. B. von On-Demand zu wiederkehrend, aktualisieren Sie den Erkennungsscan.

Konsole

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung für den zu aktualisierenden Erkennungsscan auf Aktionen > Bearbeiten.
Bearbeiten Sie die Werte.
Klicken Sie auf Speichern.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans update data-discovery, um einen Discovery-Scan zu aktualisieren.

gcloud dataplex datascans update data-discovery SCAN_ID --location=LOCATION --description=DESCRIPTION

Ersetzen Sie Folgendes:

SCAN_ID: die ID des Discovery-Scans, den Sie aktualisieren möchten
LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.
DESCRIPTION: die neue Beschreibung für den Discovery-Scan

REST

Verwenden Sie zum Aktualisieren eines Discovery-Scans die Methode dataScans.patch in der Dataplex API.

Erkennungsscan löschen

Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan zu löschen.

Konsole

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen
Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.
Klicken Sie im Bereich Cloud Storage-Erkennung für den zu löschenden Erkennungsscan auf Aktionen > Löschen.
Klicken Sie auf Löschen.

gcloud

gcloud dataplex datascans delete SCAN_ID --location=LOCATION --async

Ersetzen Sie Folgendes:

SCAN_ID: Die ID des Discovery-Scans, den Sie löschen möchten.
LOCATION: Die Google Cloud -Region, in der der Discovery-Scan erstellt wurde.

REST

Verwenden Sie zum Löschen eines Discovery-Scans die Methode dataScans.delete in der Dataplex API.