Best Practices für den Dataplex Universal Catalog

Dieses Dokument enthält Anleitungen und Best Practices für die Verwendung von Dataplex Universal Catalog.

Projekt für den Data Lake auswählen

Berücksichtigen Sie bei der Auswahl des Projekts, in dem Ihr Data Lake gehostet werden soll, die folgenden Faktoren:

  • Das Projekt muss zum selben VPC Service Controls-Perimeter gehören wie die Daten, die sich im Data Lake befinden sollen.

  • Das Dienstkonto für den Data Lake benötigt Administratorberechtigungen für die Cloud Storage-Buckets oder BigQuery-Datasets. Im Dataplex Universal Catalog werden externe Tabellen in BigQuery für Tabellen erstellt, die in Cloud Storage erkannt wurden. Der Dataplex Universal Catalog stellt auch BigQuery-Tabellenmetadaten und Tabellen, die im Cloud Storage-Bucket erkannt wurden, in einem Dataproc Metastore-Dienst zur Verfügung. Der Dataproc Metastore befindet sich im Data Lake-Projekt.

Cloud Storage-Einstellungen und ‑Einschränkungen

  • Region: Dataplex Universal Catalog unterstützt Single-Region- und Multi-Region-Buckets in einigen Google Cloud Regionen.

  • Speicherklasse: Cloud Storage-Buckets aller Speicherklassen werden unterstützt (Standard, Nearline, Coldline, Archive). Für den Zugriff auf oder das Scannen von Nearline-, Coldline- oder Archive-Daten können zusätzliche Kosten für den Datenabruf anfallen.

  • Bucket-ACL: Dataplex Universal Catalog unterstützt nur Cloud Storage-Buckets mit einheitlichen Zugriffssteuerungen. Detaillierte Zugriffssteuerungen werden nicht unterstützt.

  • „Anforderer bezahlt“: Cloud Storage-Buckets, für die die Funktion Anforderer bezahlt aktiviert ist, werden nicht unterstützt.

Leitfaden zu Sicherheit und Berechtigungen

Für Dataplex Universal Catalog müssen die Dienstkonten von Dataplex Universal Catalog als administratives Dienstkonto für verwaltete Buckets und Datasets hinzugefügt werden.

Mit dem Dataplex Universal Catalog können Analysten auf Cloud Storage-Buckets und BigQuery-Datasets in vielen Projekten zugreifen. Damit dieser Zugriff möglich ist, müssen die Dataplex Universal Catalog-Dienstkonten mit administrativen Berechtigungen für diese Projekte hinzugefügt werden.

Für Discovery fügt Dataplex Universal Catalog das Dataproc Metastore-Dienstkonto den Cloud Storage-Buckets hinzu. Wenn Sie einen eigenen Dataproc Metastore-Cluster haben, können Sie den Dataplex Universal Catalog-Lake Ihren Dataproc Metastore-Dienst verwenden lassen. Diese Option ist verfügbar, wenn Sie den Lake erstellen.

Wenn Sie einem Lake einen Cloud Storage-Bucket mit feingranularem Zugriff hinzufügen, bietet Dataplex Universal Catalog über den Lake vollen Zugriff auf diesen Bucket, da die Berechtigungen von Dataplex Universal Catalog auf alle Objekte im Bucket übertragen werden. Wenn Sie einen detaillierten Zugriff benötigen, empfiehlt es sich, die Daten in Ihrem Bucket in mehrere Buckets aufzuteilen.

Nächste Schritte