Cloud Storage-Daten ermitteln und katalogisieren

In diesem Dokument wird beschrieben, wie Sie die automatische Erkennung von Dataplex Universal Catalog verwenden, eine Funktion in BigQuery, mit der Sie Daten in Cloud Storage-Buckets scannen können, um Metadaten zu extrahieren und zu katalogisieren. Im Rahmen des Erkennungsscans werden durch die automatische Erkennung BigLake- oder externe Tabellen für strukturierte Daten und Objekttabellen für unstrukturierte Daten erstellt. Diese zentralisierten Tabellendaten erleichtern KI-basierte Datenanalysen, Datensicherheit und Governance.

Wenn Sie die automatische Erkennung von Cloud Storage-Daten verwenden möchten, erstellen Sie einen Erkennungsscan und führen ihn aus.

Übersicht über Erkennungsscans

Bei einem Erkennungsscan wird Folgendes ausgeführt:

  • Scannt die Daten im Cloud Storage-Bucket oder -Pfad.
  • Gruppiert strukturierte und semistrukturierte Daten in Tabellen.
  • Erfasst Metadaten wie den Tabellennamen, das Schema und die Partitionsdefinition.
  • Erstellt und aktualisiert BigLake-, externe oder Objekttabellen in BigQuery mithilfe des Schemas und der Partitionsdefinition.

Bei unstrukturierten Daten wie Bildern und Videos werden beim Discovery-Scan Gruppen von Dateien erkannt und registriert, die denselben Medientyp wie die BigLake-Objekttabellen haben. Wenn gs://images/group1 beispielsweise GIF-Bilder und gs://images/group2 JPEG-Bilder enthält, werden beim Discovery-Scan zwei Filesets erkannt und registriert.

Bei strukturierten Daten wie Avro werden bei der Erkennungsgruppe Dateigruppen als externe BigLake-Tabellen registriert. Dateien werden nur erkannt, wenn sie sich in Ordnern mit demselben Datenformat und einem kompatiblen Schema befinden.

Der Discovery-Scan unterstützt die folgenden strukturierten und semistrukturierten Datenformate:

Beim Discovery-Scan werden die folgenden Komprimierungsformate für strukturierte und semistrukturierte Daten unterstützt:

  • Interne Komprimierung für die folgenden Formate:

    Komprimierung Beispiel für Dateiendung Unterstütztes Format
    GZIP .gz.parquet Parquet
    LZ4 .lz4.parquet Parquet
    Snappy .snappy.parquet Parquet, ORC, Avro
    lzo .lzo.parquet Parquet, ORC
  • Externe Komprimierung für JSON- und CSV-Dateien:

    • GZIP
    • bzip2

Das Limit für die Anzahl der Tabellen, die von einem Discovery-Scan unterstützt werden, finden Sie unter Kontingente und Limits.

Die erkannten Tabellen werden in BigQuery als externe BigLake-Tabellen, BigLake-Objekttabellen oder externe Tabellen registriert. Dadurch werden die Daten zur Analyse in BigQuery verfügbar. Das Metadaten-Caching für BigLake-Tabellen und Objekttabellen ist ebenfalls aktiviert. Alle BigLake-Tabellen werden automatisch in Dataplex Universal Catalog aufgenommen, damit sie durchsucht und ermittelt werden können.

Hinweise

Enable the Dataplex API.

Enable the API

Erforderliche Rollen für das Dataplex Universal Catalog-Dienstkonto

Bevor Sie beginnen, weisen Sie dem Dataplex Universal Catalog-Dienstkonto in Ihrem Projekt die IAM-Berechtigungen zu.

  service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
  

Ersetzen Sie PROJECT_NUMBER durch das Projekt, in dem die Dataplex API aktiviert ist.

Bitten Sie Ihren Administrator, dem Dataplex-Dienstkonto die folgenden IAM-Rollen zuzuweisen, damit es die erforderlichen Berechtigungen zum Erstellen und Ausführen eines Discovery-Scans hat:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen und Ausführen eines Discovery-Scans erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um einen Erkennungsscan zu erstellen und auszuführen:

  • bigquery.datasets.create für das Datenquellenprojekt
  • storage.buckets.get für den Datenquellen-Bucket
  • storage.objects.get für den Datenquellen-Bucket
  • storage.objects.list für den Datenquellen-Bucket
  • bigquery.datasets.get für das Datenquellenprojekt
  • Stellen Sie eine Verbindung her:
    • bigquery.connections.delegate für die BigQuery-Verbindung
    • bigquery.connections.use für die BigQuery-Verbindung

Ihr Administrator kann dem Dataplex-Dienstkonto möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Erforderliche Rollen für das Dienstkonto der BigQuery-Verbindung

Damit das Dienstkonto der BigQuery-Verbindung die erforderlichen Berechtigungen zum Erstellen eines Discovery-Scans hat, bitten Sie Ihren Administrator, dem Dienstkonto der BigQuery-Verbindung die IAM-Rolle Dataplex Discovery Service Agent (roles/dataplex.discoveryServiceAgent) für den Cloud Storage-Bucket zuzuweisen.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierte Rolle enthält die Berechtigungen, die zum Erstellen eines Discovery-Scans erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um einen Erkennungsscan zu erstellen:

  • bigquery.datasets.create für das Datenquellenprojekt
  • storage.buckets.get für den Datenquellen-Bucket
  • storage.objects.get für den Datenquellen-Bucket
  • storage.objects.list für den Datenquellen-Bucket
  • bigquery.datasets.get für das Datenquellenprojekt
  • Stellen Sie eine Verbindung her:
    • bigquery.connections.delegate für die BigQuery-Verbindung
    • bigquery.connections.use für die BigQuery-Verbindung

Ihr Administrator kann dem Dienstkonto für BigQuery-Verbindungen möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.

Erforderliche Rollen für Endnutzer

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für den Cloud Storage-Bucket zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen und Verwalten von Scans zur Datenermittlung benötigen:

  • Vollständiger Zugriff auf DataScan-Ressourcen: Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin) – Ihr Projekt
  • Schreibzugriff auf DataScan-Ressourcen: Dataplex DataScan-Bearbeiter (roles/dataplex.dataScanEditor) – Ihr Projekt
  • Lesezugriff auf DataScan-Ressourcen, mit Ausnahme der Ergebnisse: Dataplex DataScan-Betrachter (roles/dataplex.dataScanViewer) – Ihr Projekt
  • Lesezugriff auf DataScan-Ressourcen, einschließlich der Ergebnisse: Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) – Ihr Projekt

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen und Verwalten von Scans zur Datenermittlung erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Datenermittlungsscans zu erstellen und zu verwalten:

  • So erstellen Sie einen DataScan: dataplex.datascans.create für Ihr Projekt
  • So löschen Sie einen DataScan: dataplex.datascans.delete für Ihr Projekt oder eine DataScan-Ressource
  • DataScan-Details ohne Ergebnisse ansehen: dataplex.datascans.get für eine DataScan-Ressource in Ihrem Projektor
  • DataScan-Details einschließlich der Ergebnisse ansehen: dataplex.datascans.getData für Ihr Projekt oder eine DataScan-Ressource
  • DataScans auflisten: dataplex.datascans.list für Ihr Projekt oder eine DataScan-Ressource
  • DataScan ausführen: dataplex.datascans.run für Ihr Projekt oder eine DataScan-Ressource
  • So aktualisieren Sie die Beschreibung eines DataScans: dataplex.datascans.update für eine DataScan-Ressource in Ihrem Projekt
  • IAM-Berechtigungen des DataScan ansehen: dataplex.datascans.getIamPolicy für Ihr Projekt oder eine DataScan-Ressource
  • Legen Sie die IAM-Berechtigungen für den DataScan fest: dataplex.datascans.setIamPolicy für Ihr Projekt oder eine DataScan-Ressource

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Erkennungsscan erstellen

Um Daten zu ermitteln, müssen Sie einen Erkennungsscan erstellen und ausführen. Sie können einen Zeitplan für den Scan festlegen oder den Scan bei Bedarf ausführen.

Wenn der Ermittlungsscan ausgeführt wird, wird in BigQuery ein neues Dataset erstellt, das dem gescannten Cloud Storage-Bucket entspricht. Der Name des BigQuery-Datasets ist derselbe wie der Name des Cloud Storage-Bucket. Ungültige Zeichen im Bucket-Namen werden durch einen Unterstrich ersetzt. Wenn der Datasetname nicht verfügbar ist, wird ein Suffix angehängt (z. B. _discovered_001). Das Dataset enthält die externen BigLake- oder Nicht-BigLake-Tabellen, die durch den Discovery-Scan für die weitere Analyse erstellt wurden.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Metadaten-Kuration auf.

    Zur Metadatenkuratierung

  2. Klicken Sie auf dem Tab Cloud Storage-Erkennung auf Erstellen.

  3. Konfigurieren Sie im Bereich Erkennungs-Scan erstellen die Details zu den zu scannenden Daten.

  4. Geben Sie einen Namen für den Scan ein.

  5. Geben Sie im Feld Scan-ID eine eindeutige ID ein, die den Konventionen für die Benennung von Ressourcen in Google Cloud entspricht. Wenn Sie keine ID angeben, wird die Scan-ID vom Erkennungsscan generiert.

  6. Optional: Geben Sie eine Beschreibung des Scans ein.

  7. Wenn Sie den Cloud Storage-Bucket angeben möchten, der die zu scannenden Dateien enthält, suchen Sie im Feld Bucket nach dem Bucket und wählen Sie ihn aus.

  8. Optional: Definieren Sie die Daten, die in den Discovery-Scan einbezogen oder daraus ausgeschlossen werden sollen, indem Sie eine Liste von Glob-Mustern für die Dateifilterung angeben.

    • Include: Wenn nur eine Teilmenge der Daten gescannt werden soll, geben Sie eine Liste von Glob-Mustern an, die mit den einzuschließenden Objekten übereinstimmen.
    • Ausschließen: Geben Sie eine Liste von Glob-Mustern an, die mit den auszuschließenden Objekten übereinstimmen.

    Wenn Sie beispielsweise gs://test_bucket/foo/.. aus dem Discovery-Scan ausschließen möchten, geben Sie **/foo/** als Ausschluss-Pfad ein. Anführungszeichen verursachen Fehler. Geben Sie **/foo/** anstelle von "**/foo/**" ein.

    Wenn Sie sowohl Einschluss- als auch Ausschlussmuster angeben, werden die Ausschlussmuster zuerst angewendet.

  9. Optional: Wählen Sie unter Projekt das BigQuery-Dataset-Projekt aus, das die durch den Discovery-Scan erstellten externen BigLake- oder Nicht-BigLake-Tabellen enthält. Wenn nicht angegeben, wird das Dataset in dem Projekt erstellt, das den Cloud Storage-Bucket enthält.

  10. Wählen Sie unter Typ des Standorts entweder Region oder Multiregion (je nach Verfügbarkeit) für das BigQuery-Dataset aus, in dem die Daten veröffentlicht werden.

  11. Wenn Sie BigLake-Tabellen aus den gescannten Daten erstellen möchten, geben Sie im Feld Verbindungs-ID die ID Ihrer Google Cloud -Ressourcenverbindung an. Weitere Informationen finden Sie unter Google Cloud Ressourcenverbindungen in BigQuery.

    Sie können eine neue Verbindungs-ID am selben Standort wie das BigQuery-Dataset erstellen, der mit dem Standort des Cloud Storage-Bucket kompatibel ist.

    Wenn Sie keine Ressourcenverbindungs-ID angeben, werden beim Discovery-Scan externe Tabellen, die nicht von BigLake stammen, erstellt.

  12. Konfigurieren Sie im Abschnitt Erkennungshäufigkeit, wann der Erkennungsscan ausgeführt werden soll:

    • Wiederholen: Der Scan wird nach einem vordefinierten Zeitplan ausgeführt. Geben Sie die Startzeit, die Tage, an denen der Scan ausgeführt werden soll, und die Häufigkeit an, z. B. „stündlich“.

    • On-Demand: Der Scan wird auf Anfrage ausgeführt.

  13. Optional: Geben Sie im Abschnitt JSON- oder CSV-Spezifikationen an, wie JSON- und CSV-Dateien bei der Überprüfung verarbeitet werden sollen. Klicken Sie auf JSON- oder CSV-Spezifikationen.

    1. Wenn Sie JSON-Optionen konfigurieren möchten, wählen Sie JSON-Parsing-Optionen aktivieren aus.
      • Disable type inference (Typinferenz deaktivieren): Gibt an, ob beim Scannen von Daten Datentypen abgeleitet werden sollen. Wenn Sie die Typinferenz für JSON-Daten deaktivieren, werden alle Spalten als ihre primitiven Typen registriert, z. B. als String, Zahl oder boolescher Wert.
      • Codierungsformat: Die Zeichencodierung der Daten, z. B. UTF-8, US-ASCII oder ISO-8859-1. Wenn Sie keinen Wert angeben, wird standardmäßig UTF-8 verwendet.
    2. Wenn Sie CSV-Optionen konfigurieren möchten, aktivieren Sie CSV-Parsing-Optionen aktivieren.
      • Disable type inference (Typinferenz deaktivieren): Gibt an, ob beim Scannen von Daten Datentypen abgeleitet werden sollen. Wenn Sie die Typinferenz für CSV-Daten deaktivieren, werden alle Spalten als Strings registriert.
      • Überschriftenzeilen: Die Anzahl der Überschriftenzeilen, entweder 0 oder 1. Wenn Sie den Wert 0 angeben, werden beim Discovery-Scan Überschriften abgeleitet und die Spaltennamen aus der Datei extrahiert. Der Standardwert ist 0.
      • Spaltentrennzeichen: Das Zeichen, das zum Trennen von Werten verwendet wird. Geben Sie ein einzelnes Zeichen, \r (Zeilenumbruch) oder \n (neue Zeile) an. Der Standardwert ist ein Komma (,).
      • Codierungsformat: Die Zeichencodierung der Daten, z. B. UTF-8, US-ASCII oder ISO-8859-1. Wenn Sie keinen Wert angeben, wird standardmäßig UTF-8 verwendet.
  14. Klicken Sie auf Erstellen (für einen geplanten Scan) oder Jetzt ausführen (für einen On-Demand-Scan).

    Ein geplanter Scan wird gemäß dem von Ihnen festgelegten Zeitplan ausgeführt.

    Ein On-Demand-Scan wird beim Erstellen einmal ausgeführt. Sie können ihn aber jederzeit ausführen. Es kann einige Minuten dauern, bis der Scan abgeschlossen ist.

gcloud

Verwenden Sie zum Erstellen eines Discovery-Scans den Befehl gcloud dataplex datascans create data-discovery.

gcloud dataplex datascans create data-discovery --location=LOCATION
--data-source-resource=BUCKET_PATH

Ersetzen Sie Folgendes:

  • LOCATION: der Speicherort, an dem Sie den Discovery-Scan erstellen möchten
  • BUCKET_PATH: der Cloud Storage-Pfad des Buckets, den Sie scannen möchten

REST

Verwenden Sie zum Erstellen eines Discovery-Scans die Methode dataScans.create.

Veröffentlichte BigLake-Tabellen abfragen

Nachdem Sie den Ermittlungsscan ausgeführt haben, werden BigLake-Tabellen in einem neuen Dataset in BigQuery veröffentlicht. Die Tabellen stehen dann in BigQuery zur Analyse mit SQL oder in Dataproc mit Apache Spark oder HiveQL zur Verfügung.

SQL

Sie können Tabellen in BigQuery aufrufen oder abfragen. Weitere Informationen zum Ausführen von Abfragen in BigQuery finden Sie unter Abfrage ausführen.

Apache Spark

So fragen Sie BigLake-Tabellen mit Spark SQL in einem serverlosen Dataproc-Job ab:

  1. Erstellen Sie ein PySpark-Skript, das dem folgenden Beispielskript ähnelt:

    from pyspark.sql import SparkSession
    session = (
      SparkSession.builder.appName("testing")
        .config("viewsEnabled","true")
        .config("materializationDataset", "DATASET_ID")
        .config("spark.hive.metastore.bigquery.project.id", "PROJECT_ID")
        .config("spark.hive.metastore.client.factory.class", "com.google.cloud.bigquery.metastore.client.BigQueryMetastoreClientFactory")
        .enableHiveSupport()
        .getOrCreate()
    )
    
    session.sql("show databases").show()
    session.sql("use TABLE_NAME").show()
    session.sql("show tables").show()
    
    sql = "SELECT * FROM DATASET_ID.TABLE_ID LIMIT 10"
    df = session.read.format("bigquery").option("dataset", "DATASET_ID").load(sql)
    df.show()

    Ersetzen Sie Folgendes:

    • DATASET_ID: ID des Datasets, für das Nutzer die Berechtigung zum Erstellen haben
    • PROJECT_ID: ID des Projekts mit der BigLake-Tabelle
    • TABLE_NAME: Name der BigLake-Tabelle
    • TABLE_ID: ID der BigLake-Tabelle
  2. Batchjob senden

Veröffentlichte BigLake-Tabellen verwalten

Veröffentlichte BigLake-Tabellen werden durch den Erkennungsscan in BigQuery erstellt und verwaltet. Standardmäßig werden beim Discovery-Scan jedes Mal, wenn die geplanten oder On-Demand-Scans ausgeführt werden, neue Daten ermittelt, Schemas abgeleitet und Schemas weiterentwickelt. Um anzugeben, dass Metadaten vom Scan verwaltet werden, werden Tabellen mit dem Label metadata-managed-mode, das auf discovery-managed festgelegt ist, veröffentlicht.

Wenn Sie das Schema und andere Metadaten wie CSV- oder JSON-Optionen selbst verwalten möchten, legen Sie das Label metadata-managed-mode auf user_managed fest. So bleibt das Schema unverändert, wenn der nächste Erkennungsscan ausgeführt wird. Dieser Ansatz kann in Szenarien nützlich sein, in denen das Schema, das durch den Discovery-Scan abgeleitet wird, falsch ist oder sich von dem unterscheidet, was für eine bestimmte Tabelle erwartet wird. Wenn das Label metadata-managed-mode auf user_managed festgelegt ist, können die Kosten gesenkt werden.

Wenn Sie das Label aktualisieren möchten, können Sie den Wert des Labelschlüssels metadata-managed-mode in user_managed anstatt in discovery-managed ändern. In diesem Fall wird das Schema der Tabelle durch den Erkennungsscan nicht aktualisiert, solange das Label user_managed an die Tabelle angehängt ist.

Veröffentlichte BigLake-Tabellen aktualisieren

Bei BigLake-Tabellen, die mit den Discovery-Scan-Jobs mit der Standardkonfiguration veröffentlicht werden, werden das Schema und andere Metadaten automatisch bei jeder Ausführung des Discovery-Scan-Jobs in der geplanten Häufigkeit aktualisiert.

So aktualisieren Sie eine veröffentlichte BigLake-Tabelle:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Ein oder mehrere Tabellenattribute aktualisieren

  3. Maximieren Sie im Bereich Explorer Ihr Projekt und das Dataset und wählen Sie dann die Tabelle aus.

  4. Prüfen Sie auf dem Tab Details im Bereich Labels, ob das Label metadata-managed-mode auf user_managed festgelegt ist. Wenn ein anderer Wert festgelegt ist, gehen Sie so vor:

    1. Klicken Sie auf  Details bearbeiten.

    2. Geben Sie neben dem Schlüssel metadata-managed-mode im Feld value den Wert user_managed ein.

Veröffentlichte BigLake-Tabellen löschen

So löschen Sie eine veröffentlichte BigLake-Tabelle:

  1. Datendateien für die Tabelle im Cloud Storage-Bucket löschen

  2. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  3. Maximieren Sie im Bereich Explorer Ihr Projekt und das Dataset und wählen Sie dann die Tabelle aus.

  4. Prüfen Sie im Bereich Details im Abschnitt Labels, ob das Label metadata-managed-mode auf user_managed festgelegt ist. Wenn die Einstellung auf user_managed festgelegt ist, gehen Sie so vor:

    1. Klicken Sie auf Details bearbeiten .

    2. Geben Sie neben dem Schlüssel metadata-managed-mode im Feld value den Wert discovery-managed ein.

  5. Klicken Sie auf Ausführen. Der Discovery-Scan wird bei Bedarf ausgeführt.

Nachdem der Discovery-Scan ausgeführt wurde, wird die BigLake-Tabelle in BigQuery gelöscht und kann nicht mehr über Spark aufgelistet oder abgefragt werden.

Erkennungsscan on demand ausführen

Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan auf Anfrage auszuführen.

Console

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.

  3. Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, den Sie ausführen möchten.

  4. Klicken Sie auf Jetzt ausführen.

gcloud

Verwenden Sie den gcloud dataplex datascans run-Befehl, um einen Erkennungsscan auszuführen:

gcloud dataplex datascans run DATASCAN \
  --location=LOCATION

Ersetzen Sie die folgenden Variablen:

  • LOCATION: die Google Cloud Region, in der der Discovery-Scan erstellt wurde.
  • DATASCAN: der Name des Discovery-Scans.

REST

Wenn Sie einen Discovery-Scan auf Abruf ausführen möchten, verwenden Sie die dataScans.run-Methode in der Dataplex API.

Erkennungsscans auflisten

Wählen Sie eine der folgenden Optionen aus, um Ihre Discovery-Scans aufzulisten.

Console

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.

  3. Im Bereich Cloud Storage-Erkennung werden die im Projekt erstellten Erkennungsscans aufgeführt.

gcloud

gcloud dataplex datascans list --location=LOCATION --project=PROJECT_ID

Ersetzen Sie Folgendes:

  • LOCATION: Der Standort Ihres Projekts.
  • PROJECT_ID: Ihre Google Cloud -Projekt-ID

REST

Wenn Sie die Liste der Discovery-Scans in Ihrem Projekt abrufen möchten, verwenden Sie die dataScans.list-Methode in der Dataplex Universal Catalog API.

Erkennungsscan ansehen

Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan anzusehen.

Console

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.

  3. Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, dessen Details Sie sich ansehen möchten.

    • Im Abschnitt Scandetails werden Details zum Erkennungsscan angezeigt.
    • Im Abschnitt Scanstatus werden die Ergebnisse des letzten Scanvorgangs angezeigt.

gcloud

gcloud dataplex datascans jobs describe JOB \
    --location=LOCATION \
    --datascan=DATASCAN \
    --view=FULL

Ersetzen Sie Folgendes:

  • JOB: die Job-ID des Discovery-Scan-Jobs.
  • LOCATION: die Google Cloud Region, in der der Discovery-Scan erstellt wurde.
  • DATASCAN: Der Name des Discovery-Scans, zu dem der Job gehört.
  • --view=FULL: Ergebnis des Discovery-Scan-Jobs ansehen.

REST

Wenn Sie die Ergebnisse eines Data Discovery-Scans aufrufen möchten, verwenden Sie die dataScans.get-Methode in der Dataplex Universal Catalog API.

Frühere Ergebnisse von Erkennungsscans ansehen

Wählen Sie eine der folgenden Optionen aus, um historische Ergebnisse von Discovery-Scans aufzurufen.

Console

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.

  3. Klicken Sie im Bereich Cloud Storage-Erkennung auf den Erkennungsscan, dessen Details Sie sich ansehen möchten.

  4. Klicken Sie auf den Bereich Scanverlauf. Im Bereich Scanverlauf finden Sie Informationen zu früheren Jobs, einschließlich der Anzahl der in jedem Job gescannten Datensätze, des Status der einzelnen Jobs und der Zeit, zu der die Jobs ausgeführt wurden.

  5. Wenn Sie detaillierte Informationen zu einem Job aufrufen möchten, klicken Sie in der Spalte Job-ID auf den Job.

gcloud

gcloud dataplex datascans jobs list \
    --location=LOCATION \
    --datascan=DATASCAN

Ersetzen Sie Folgendes:

  • LOCATION: die Google Cloud Region, in der der Discovery-Scan erstellt wurde.
  • DATASCAN: Der Name des Discovery-Scans, zu dem der Job gehört.

REST

Wenn Sie alle Jobs eines Discovery-Scans aufrufen möchten, verwenden Sie die dataScans.job/list-Methode in der Dataplex Universal Catalog API.

Erkennungsscan aktualisieren

Wenn Sie den Zeitplan eines Erkennungsscans ändern möchten, z. B. von On-Demand zu wiederkehrend, aktualisieren Sie den Erkennungsscan.

Console

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.

  3. Klicken Sie im Bereich Cloud Storage-Erkennung für den zu aktualisierenden Erkennungsscan auf Aktionen > Bearbeiten.

  4. Bearbeiten Sie die Werte.

  5. Klicken Sie auf Speichern.

gcloud

Verwenden Sie zum Aktualisieren eines Discovery-Scans den Befehl gcloud dataplex datascans update data-discovery.

gcloud dataplex datascans update data-discovery SCAN_ID --location=LOCATION --description=DESCRIPTION

Ersetzen Sie Folgendes:

  • SCAN_ID: die ID des Discovery-Scans, den Sie aktualisieren möchten
  • LOCATION: die Google Cloud Region, in der der Discovery-Scan erstellt wurde
  • DESCRIPTION: die neue Beschreibung für den Discovery-Scan

REST

Verwenden Sie die Methode dataScans.patch in der Dataplex Universal Catalog API, um einen Discovery-Scan zu aktualisieren.

Erkennungsscan löschen

Wählen Sie eine der folgenden Optionen aus, um einen Discovery-Scan zu löschen.

Console

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im Navigationsmenü auf Governance > Metadaten-Kurierung.

  3. Klicken Sie im Bereich Cloud Storage-Erkennung für den zu löschenden Erkennungsscan auf Aktionen > Löschen.

  4. Klicken Sie auf Löschen.

gcloud

gcloud dataplex datascans delete SCAN_ID --location=LOCATION --async

Ersetzen Sie Folgendes:

  • SCAN_ID: die ID des Discovery-Scans, den Sie löschen möchten.
  • LOCATION: die Google Cloud Region, in der der Discovery-Scan erstellt wurde.

REST

Verwenden Sie zum Löschen eines Discovery-Scans die Methode dataScans.delete in der Dataplex Universal Catalog API.