In diesem Dokument wird beschrieben, was Dataplex Universal Catalog-Zonen sind und wie Sie sie Ihrem Dataplex Universal Catalog-Lake hinzufügen.
Übersicht
Dataplex Universal Catalog-Zonen sind benannte Einheiten in einem Dataplex Universal Catalog-Lake. Sie sind logische Gruppierungen von unstrukturierten, semistrukturierten und strukturierten Daten, die aus mehreren Assets wie Cloud Storage-Buckets, BigQuery-Datasets und BigQuery-Tabellen bestehen.
Ein Data Lake kann eine oder mehrere Zonen enthalten. Eine Zone kann nur Teil eines Data Lake sein, sie kann jedoch Assets enthalten, die auf Ressourcen verweisen, die zu Projekten außerhalb des übergeordneten Projekts gehören.
Sie können Konfigurationen für eine Zone in Dataplex Universal Catalog auswählen. Es gibt zwei Arten von Zonen, aus denen Sie auswählen können: Rohdaten und kuratierte Daten.
Rohdatenzonen
In Rohdatenzonen werden strukturierte Daten, semistrukturierte Daten wie CSV- und JSON-Dateien sowie unstrukturierte Daten in einem beliebigen Format aus externen Quellen gespeichert. Rohzonen eignen sich zum Bereitstellen von Rohdaten, bevor Transformationen durchgeführt werden. Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert werden.
Für Rohzonen wird die Granularität auf Bucket- oder Dataset-Ebene für Lese- und Schreibberechtigungen unterstützt. Es gibt keine Einschränkungen hinsichtlich der Art der Daten, die in Rohdatenzonen gespeichert werden können.
Ausgewählte Zonen
In kuratierten Zonen werden strukturierte Daten gespeichert. Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert werden.
Unterstützte Formate für Cloud Storage-Buckets sind Parquet, Avro und ORC. Kuratierte Zonen eignen sich zum Bereitstellen von Daten, die vor der Analyse verarbeitet werden müssen, oder zum Bereitstellen von Daten, die für die Analyse bereit sind.
Für BigQuery-Tabellen benötigen Sie ein genau definiertes Schema und Partitionen im Hive-Stil. Wenn Sie ein Schema für eine bestimmte Tabelle in einer kuratierten Zone angeben, müssen die Daten dem für die Tabelle definierten Schema entsprechen. Schemadrift ist nicht zulässig. Das bedeutet, dass die Daten mit dem für die Tabelle definierten Schema kompatibel sein müssen und neue Partitionen kein Schema haben dürfen, das mit dem Tabellenschema in Konflikt steht.
Für kuratierte Zonen werden Lese- und Schreibberechtigungen auf Cloud Storage-Bucket- oder BigQuery-Dataset-Ebene unterstützt.
Hinweise
Bevor Sie einem Lake Zonen hinzufügen können, muss ein Lake vorhanden sein. Erstellen Sie einen Lake, falls noch nicht geschehen.
Für die meisten gcloud lake
-Befehle ist ein Speicherort erforderlich. Sie können den Speicherort mit dem Parameter --location
angeben.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Dataplex Administrator (roles/dataplex.admin
) für das Projekt zuzuweisen, um die Berechtigung zum Hinzufügen einer Zone zu erhalten.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierte Rolle enthält die Berechtigung dataplex.lakes.create
, die zum Hinzufügen einer Zone erforderlich ist.
Sie können diese Berechtigung auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Zonen hinzufügen
Sie können Ihrem Lake mehrere Zonen hinzufügen. Sie können jeweils nur eine Zone hinzufügen, aber Ihren Lake weiterhin verwenden, während die Zone erstellt wird.
So fügen Sie einem vorhandenen Lake eine Zone hinzu:
Console
Rufen Sie in der Google Cloud -Console Dataplex Universal Catalog auf.
Rufen Sie die Ansicht Verwalten auf.
Klicken Sie in der Ansicht Verwalten auf den Namen des Lakes, dem Sie eine Zone hinzufügen möchten.
Klicken Sie auf dem Tab Zonen auf
Zone hinzufügen.Geben Sie einen Anzeigenamen für die Zone ein.
Klicken Sie auf das Menü Typ. Wählen Sie Rohdaten-Zone oder Ausgewählte Zone aus. Weitere Informationen zu unterstützten Zonentypen
Optional: Geben Sie eine Beschreibung ein.
Wählen Sie unter Speicherorte für Daten entweder Regional oder Mehrere Regionen aus. Ihre Auswahl kann später nicht mehr geändert werden. Daten aus einer einzelnen Region und aus mehreren Regionen können nicht in derselben Zone gemischt werden.
Optional: Aktivieren Sie die Metadatenerkennung. Dadurch kann Dataplex Universal Catalog Metadaten automatisch aus den Daten in Ihrer Zone scannen und extrahieren:
Klicken Sie auf Einstellungen für die Suche.
Achten Sie darauf, dass Metadatenerkennung aktivieren ausgewählt ist.
Optional: Geben Sie unter Muster einschließen die Dateien an, die in die Erkennungsscans aufgenommen werden sollen.
Optional: Geben Sie unter Ausschlussmuster die Dateien an, die aus den Discovery-Scans ausgeschlossen werden sollen. Wenn Sie sowohl Einschluss- als auch Ausschlussmuster eingeben, werden Ausschlussmuster zuerst angewendet.
Klicken Sie auf das Menü Wiederholungen und wählen Sie eine Häufigkeit aus. Wenn Sie Benutzerdefiniert auswählen, geben Sie im Feld Zeitplan einen Job-Zeitplan ein. Andernfalls wird der Wert Schedule automatisch für Sie ausgefüllt.
Klicken Sie auf das Menü Zeitzone und wählen Sie eine Zeitzone aus.
Klicken Sie auf Erstellen.
REST
Verwenden Sie zum Hinzufügen einer Zone die Methode lakes.zones.create.
Es kann einige Minuten dauern, bis die Zone erstellt ist.
Wenn die Zonen-Erstellung erfolgreich ist, wechselt die Zone automatisch in den Aktivitätsstatus. Wenn der Vorgang fehlschlägt, wird der Data Lake auf seinen vorherigen Zustand zurückgesetzt.
Nachdem Sie die Zone erstellt haben, können Sie Daten, die in Cloud Storage-Buckets und BigQuery-Datasets gespeichert sind, als Assets der Zone zuordnen. Weitere Informationen finden Sie unter Asset hinzufügen.