Lakes schützen

In diesem Dokument wird beschrieben, wie Sie den Zugriff auf Dataplex Universal Catalog-Seen sichern und verwalten.

Mit dem Sicherheitsmodell von Dataplex Universal Catalog können Sie die Berechtigungen von Nutzern für die folgenden Aufgaben verwalten:

  • Data Lake verwalten (Assets, Zonen und zusätzliche Data Lakes erstellen und anhängen)
  • Zugriff auf Daten, die über das Mapping-Asset mit einem Data Lake verbunden sind (z. B.Google Cloud Ressourcen wie Cloud Storage-Buckets und BigQuery-Datasets)
  • Auf Metadaten zu den mit einem Data Lake verbundenen Daten zugreifen

Ein Administrator für einen Lake steuert den Zugriff auf Dataplex Universal Catalog-Ressourcen wie Lake, Zone und Assets, indem er die grundlegenden und vordefinierten Rollen gewährt.

Einfache Rollen

Rolle Beschreibung
Dataplex-Betrachter
(roles/dataplex.viewer)
Sie können den Datensee und seine konfigurierten Zonen und Assets aufrufen, aber nicht bearbeiten.
Dataplex-Bearbeiter
(roles/dataplex.editor)
Berechtigung zum Bearbeiten des Sees Darf Datenseen, Zonen, Assets und Aufgaben erstellen und konfigurieren.
Dataplex-Administrator
(roles/dataplex.administrator)
Vollständige Verwaltung eines Datensees
Dataplex-Entwickler
(roles/dataplex.developer)
Möglichkeit, Arbeitslasten zur Datenanalyse in einem Lake auszuführen. *
* Zum Abfragen einer BigQuery-Tabelle benötigen Sie die Berechtigung zum Ausführen eines BigQuery-Jobs. Legen Sie diese Berechtigung in dem Projekt fest, dem die Rechenausgaben des Jobs zugeordnet oder in Rechnung gestellt werden sollen. Weitere Informationen finden Sie unter Vordefinierte Rollen und Berechtigungen für BigQuery.
Wenn Sie einen Spark-Job ausführen möchten, erstellen Sie Dataproc-Cluster und reichen Sie Dataproc-Jobs in dem Projekt ein, dem die Rechenleistung zugeordnet werden soll.

Vordefinierte Rollen

Google Cloud verwaltet die vordefinierten Rollen, die einen detaillierten Zugriff auf den Dataplex Universal Catalog ermöglichen.

Metadatenrollen

Nutzer mit Metadatenrollen können Metadaten wie Tabellenschemata aufrufen.

Rolle Beschreibung
Autor von Dataplex-Metadaten
(roles/dataplex.metadataWriter)
Möglichkeit, die Metadaten einer bestimmten Ressource zu aktualisieren.
Dataplex-Metadatenleser
(roles/dataplex.metadataReader)
Lesen der Metadaten (z. B. zum Abfragen einer Tabelle)

Datenrollen

Wenn Sie einem Hauptkonto Datenrollen zuweisen, kann es Daten in den zugrunde liegenden Ressourcen lesen oder schreiben, auf die die Assets des Data Lake verweisen.

Der Dataplex Universal Catalog ordnet seine Rollen den Datenrollen für jede zugrunde liegende Speicherressource zu, z. B. Cloud Storage und BigQuery.

Der Dataplex Universal Catalog übersetzt und überträgt die Datenrollen des Dataplex Universal Catalogs an die zugrunde liegende Speicherressource und legt die richtigen Rollen für jede Speicherressource fest. Sie können eine einzelne Dataplex Universal Catalog-Datenrolle auf Ebene der Data Lake-Hierarchie (z. B. eines Data Lake) gewähren. Der Dataplex Universal Catalog verwaltet dann den angegebenen Zugriff auf Daten in allen mit diesem Data Lake verbundenen Ressourcen. Beispielsweise werden Cloud Storage-Buckets und BigQuery-Datasets von Assets in den zugrunde liegenden Zonen referenziert.

Wenn Sie einem Hauptkonto beispielsweise die Rolle dataplex.dataWriter für einen Lake zuweisen, erhält es Schreibzugriff auf alle Daten im Lake sowie auf die zugrunde liegenden Zonen und Assets. Rollen für den Datenzugriff, die auf einer niedrigeren Ebene (Zone) gewährt werden, werden in der Lake-Hierarchie an die zugrunde liegenden Assets vererbt.

Rolle Beschreibung
Dataplex-Datenleser
(roles/dataplex.dataReader)
Möglichkeit, Daten aus mit Assets verknüpften Speichern zu lesen, einschließlich Speicher-Buckets und BigQuery-Datasets (und deren Inhalt). *
Dataplex-Datenautor
(roles/dataplex.dataWriter)
Schreibberechtigung für die zugrunde liegenden Ressourcen, auf die das Asset verweist. *
Dataplex-Dateninhaber
(roles/dataplex.dataOwner)
Gewährt den zugrunde liegenden Ressourcen die Rolle „Inhaber“, einschließlich der Möglichkeit, untergeordnete Ressourcen zu verwalten. Als Dateninhaber eines BigQuery-Datasets können Sie beispielsweise die zugrunde liegenden Tabellen verwalten.

Lakes schützen

Sie können den Zugriff auf Ihren Data Lake und die zugehörigen Daten schützen und verwalten. Verwenden Sie in der Google Cloud Console eine der folgenden Ansichten:

  • Die Ansicht Verwalten im Dataplex Universal Catalog auf dem Tab Berechtigungen
  • Die Ansicht Sicher im Dataplex Universal Catalog

In der Ansicht Verwalten

Auf dem Tab Berechtigungen können Sie alle Berechtigungen für eine Datenseeressource verwalten. Außerdem wird eine ungefilterte Ansicht aller Berechtigungen angezeigt, einschließlich der übernommenen.

So sichern Sie Ihren See:

  1. Rufen Sie in der Google Cloud -Console den Dataplex Universal Catalog auf.

    Universal Catalog in Dataplex aufrufen

  2. Rufen Sie die Ansicht Verwalten auf.

  3. Klicken Sie auf den Namen des von Ihnen erstellten Sees.

  4. Klicken Sie auf den Tab Berechtigungen.

  5. Klicken Sie auf den Tab Nach Rollen filtern.

  6. Klicken Sie auf Hinzufügen, um eine neue Rolle hinzuzufügen. Fügen Sie die Rollen Dataplex Data Reader, Data Writer und Data Owner hinzu.

  7. Prüfen Sie, ob die Rollen Dataplex Data Reader, Data Writer und Data Owner angezeigt werden.

Ansicht Sicher verwenden

Die Ansicht Sicher des Dataplex Universal Catalogs in der Google Cloud Console bietet Folgendes:

  • Eine filterbare Ansicht, die nur die Rollen im Dataplex Universal Catalog enthält, die sich auf eine bestimmte Ressource beziehen
  • Datenrollen von Rollen für Data Lake-Ressourcen trennen
Beispiel für Datenberechtigungen, die nicht von übergeordneten Lake-Ressourcen übernommen werden
Abbildung 1: In diesem Beispiel für einen Data Lake haben beide Berechtigungssubjekte Datenberechtigungen für das Asset Cloud Storage-Daten (GCS-Daten). Diese Berechtigungen werden nicht von übergeordneten Lake-Ressourcen übernommen.


Beispiel für Berechtigungen, die nicht von übergeordneten Lake-Ressourcen übernommen werden
Abbildung 2: In diesem Beispiel ist Folgendes zu sehen:
  1. Ein Dienstkonto, das die Rolle „Dataplex-Administrator“ vom Projekt erbt.
  2. Hauptkonten (E-Mail-Adresse), die die Rollen „Dataplex-Bearbeiter“ und „Dataplex-Betrachter“ vom Projekt übernehmen. Diese Rollen gelten für alle Ressourcen.
  3. Ein Hauptkonto (E-Mail-Adresse), das die Rolle „Dataplex-Administrator“ vom Projekt übernimmt.

Richtlinienverwaltung

Nachdem Sie Ihre Sicherheitsrichtlinie angegeben haben, überträgt Dataplex Universal Catalog die Berechtigungen an die IAM-Richtlinien der verwalteten Ressourcen.

Die auf Ebene des Datensees konfigurierte Sicherheitsrichtlinie wird auf alle in diesem Datensee verwalteten Ressourcen angewendet. Der Dataplex Universal Catalog bietet auf dem Tab Verwalten > Berechtigungen Informationen zum Status der Weitergabe und zu diesen umfangreichen Weitergaben. Er überwacht die verwalteten Ressourcen kontinuierlich auf Änderungen an der IAM-Richtlinie außerhalb des Dataplex Universal Catalogs.

Nutzer, die bereits Berechtigungen für eine Ressource haben, behalten diese auch, wenn eine Ressource mit einem Dataplex Universal Catalog-Datensee verknüpft wird. Ebenso bleiben Rollenbindungen, die nicht zu Dataplex Universal Catalog gehören und nach dem Verknüpfen der Ressource mit Dataplex Universal Catalog erstellt oder aktualisiert wurden, unverändert.

Richtlinien auf Spalten-, Zeilen- und Tabellenebene festlegen

Cloud Storage-Bucket-Assets sind mit externen BigQuery-Tabellen verknüpft.

Sie können ein Cloud Storage-Bucket-Asset aktualisieren. Das bedeutet, dass die angehängten externen Tabellen aus dem Dataplex Universal Catalog entfernt und stattdessen BigLake-Tabellen angehängt werden.

Sie können BigLake-Tabellen anstelle von externen Tabellen verwenden, um eine detaillierte Zugriffssteuerung zu ermöglichen, einschließlich Einstellungen auf Zeilenebene, Einstellungen auf Spaltenebene und Spaltendatenmaskierung.

Metadatensicherheit

Metadaten beziehen sich hauptsächlich auf Schemainformationen, die mit Nutzerdaten in Ressourcen verknüpft sind, die von einem Data Lake verwaltet werden.

Bei der Dataplex Universal Catalog Discovery werden die Daten in verwalteten Ressourcen untersucht und tabellarische Schemainformationen extrahiert. Diese Tabellen werden in BigQuery, Dataproc Metastore und Data Catalog (veraltet) veröffentlicht.

BigQuery

Jede gefundene Tabelle ist mit einer in BigQuery registrierten Tabelle verknüpft. Jede Zone ist mit einem BigQuery-Dataset verknüpft, unter dem alle externen Tabellen registriert sind, die mit Tabellen in dieser Datenzone verknüpft sind.

Die gefundenen in Cloud Storage gehosteten Tabellen werden unter dem Datensatz registriert, der für die Zone erstellt wurde.

Dataproc Metastore

Datenbanken und Tabellen werden im Dataproc Metastore verfügbar gemacht, der mit der Dataplex Universal Catalog-Lake-Instanz verknüpft ist. Jede Datenzone ist mit einer Datenbank verknüpft und jedes Asset kann eine oder mehrere verknüpfte Tabellen haben.

Die Daten in einem Dataproc Metastore-Dienst werden durch die Konfiguration Ihres VPC-SC-Netzwerks geschützt. Die Dataproc Metastore-Instanz wird beim Erstellen des Data Lake an den Dataplex Universal Catalog übergeben. Sie ist also bereits eine nutzerverwaltete Ressource.

Data Catalog

Jede erkannte Tabelle hat einen zugehörigen Eintrag im Data Catalog (veraltet), um die Suche und Erkennung zu ermöglichen.

Für das Erstellen von Einträgen im Data Catalog sind IAM-Richtliniennamen erforderlich. Daher wird in Dataplex Universal Catalog der Name der IAM-Richtlinie der Dataplex Universal Catalog-Asset-Ressource angegeben, der der Eintrag zugeordnet werden soll. Daher werden die Berechtigungen für den Eintrag im Dataplex Universal Catalog von den Berechtigungen für die Asset-Ressource bestimmt. Weisen Sie der Asset-Ressource die Rolle „Dataplex Metadata Reader“ (roles/dataplex.metadataReader) und die Rolle „Dataplex Metadata Writer“ (roles/dataplex.metadataWriter) zu.

Nächste Schritte