Kurzanleitung: Lake erstellen
In diesem Dokument erfahren Sie, wie Sie mit Dataplex Universal Catalog in derGoogle Cloud Console beginnen. Sie erfahren, wie Sie einen Lake erstellen, eine Zone hinzufügen und ein Asset anhängen.
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
-
Make sure that you have the following role or roles on the project:
roles/dataplex.admin
,roles/dataplex.editor
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Zu IAM - Wählen Sie das Projekt aus.
- Klicken Sie auf Zugriff erlauben.
-
Geben Sie im Feld Neue Hauptkonten Ihre Nutzer-ID ein. Dies ist in der Regel die E-Mail-Adresse eines Google-Kontos.
- Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
- Wenn Sie weitere Rollen hinzufügen möchten, klicken Sie auf Weitere Rolle hinzufügen und fügen Sie weitere Rollen hinzu.
- Klicken Sie auf Speichern.
-
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
-
Make sure that you have the following role or roles on the project:
roles/dataplex.admin
,roles/dataplex.editor
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Zu IAM - Wählen Sie das Projekt aus.
- Klicken Sie auf Zugriff erlauben.
-
Geben Sie im Feld Neue Hauptkonten Ihre Nutzer-ID ein. Dies ist in der Regel die E-Mail-Adresse eines Google-Kontos.
- Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
- Wenn Sie weitere Rollen hinzufügen möchten, klicken Sie auf Weitere Rolle hinzufügen und fügen Sie weitere Rollen hinzu.
- Klicken Sie auf Speichern.
-
- Cloud Storage-Bucket erstellen:
- In the Google Cloud console, go to the Cloud Storage Buckets page.
- Click Create.
- On the Create a bucket page, enter your bucket information. To go to the next
step, click Continue.
- For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
-
In the Choose where to store your data section, do the following:
- Select a Location type.
- Choose a location where your bucket's data is permanently stored from the Location type drop-down menu.
- If you select the dual-region location type, you can also choose to enable turbo replication by using the relevant checkbox.
- To set up cross-bucket replication, select
Add cross-bucket replication via Storage Transfer Service and
follow these steps:
Set up cross-bucket replication
- In the Bucket menu, select a bucket.
In the Replication settings section, click Configure to configure settings for the replication job.
The Configure cross-bucket replication pane appears.
- To filter objects to replicate by object name prefix, enter a prefix that you want to include or exclude objects from, then click Add a prefix.
- To set a storage class for the replicated objects, select a storage class from the Storage class menu. If you skip this step, the replicated objects will use the destination bucket's storage class by default.
- Click Done.
-
In the Choose how to store your data section, do the following:
- In the Set a default class section, select the following: Standard.
- To enable hierarchical namespace, in the Optimize storage for data-intensive workloads section, select Enable hierarchical namespace on this bucket.
- In the Choose how to control access to objects section, select whether or not your bucket enforces public access prevention, and select an access control method for your bucket's objects.
-
In the Choose how to protect object data section, do the
following:
- Select any of the options under Data protection that you
want to set for your bucket.
- To enable soft delete, click the Soft delete policy (For data recovery) checkbox, and specify the number of days you want to retain objects after deletion.
- To set Object Versioning, click the Object versioning (For version control) checkbox, and specify the maximum number of versions per object and the number of days after which the noncurrent versions expire.
- To enable the retention policy on objects and buckets, click the Retention (For compliance) checkbox, and then do the following:
- To enable Object Retention Lock, click the Enable object retention checkbox.
- To enable Bucket Lock, click the Set bucket retention policy checkbox, and choose a unit of time and a length of time for your retention period.
- To choose how your object data will be encrypted, expand the Data encryption section (Data encryption method. ), and select a
- Select any of the options under Data protection that you
want to set for your bucket.
- Click Create.
Lakes erstellen
Ein Lake ist ein logisches Konstrukt, das eine Datendomäne oder Geschäftseinheit repräsentiert. Wenn Sie beispielsweise Daten basierend auf der Gruppennutzung organisieren müssen, erstellen Sie einen Data Lake für jede Abteilung (z. B. Einzelhandel, Vertrieb und Finanzen).
In den folgenden Schritten wird beschrieben, wie Sie einen Lake mit der Google Cloud -Konsole erstellen.
Rufen Sie Dataplex Universal Catalog in der Google Cloud -Console auf.
Rufen Sie die Ansicht Verwalten auf.
Klicken Sie auf
Erstellen.Geben Sie einen Anzeigenamen ein.
Die Lake-ID wird automatisch für Sie generiert.
Geben Sie die Region an, in der die Instanz erstellt werden soll.
Bei Lakes, die in einer bestimmten Region erstellt wurden (z. B.
us-central1
), können sowohl Daten mit einer Region (us-central1
) als auch Daten mit mehreren Regionen (us multi-region
) je nach Zoneneinstellungen angehängt werden.Klicken Sie auf Erstellen.
Zone zum Lake hinzufügen
Nachdem Sie einen Lake erstellt haben, können Sie ihm Zonen hinzufügen. Zonen sind logische Gruppierungen innerhalb eines Lakes, die sich zum Kategorisieren strukturierter und unstrukturierter Daten eignen.
Klicken Sie in der Ansicht Verwalten auf den Namen des Lakes, dem Sie eine Zone hinzufügen möchten.
Klicken Sie auf
Zone hinzufügen.Geben Sie einen Anzeigenamen für die Zone ein.
Klicken Sie auf das Drop-down-Menü Typ. Wählen Sie Rohdaten-Zone oder Ausgewählte Zone aus. Weitere Informationen zu den Zonentypen
Wählen Sie unter Speicherorte für Daten entweder Regional oder Mehrere Regionen aus. Ihre Auswahl kann später nicht mehr geändert werden. Daten aus einer einzelnen Region und aus mehreren Regionen können nicht in derselben Zone gemischt werden.
Klicken Sie auf Erstellen.
Es kann einige Minuten dauern, bis die Zone erstellt ist.
Asset anhängen
Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert und an Datenzonen in einem Dataplex Universal Catalog-Lake als Assets angehängt werden.
So hängen Sie Ihren Cloud Storage-Bucket als Asset an:
Klicken Sie in der Ansicht Verwalten auf den Namen des Lakes, dem Sie einen Cloud Storage-Bucket anhängen möchten.
Klicken Sie auf dem Tab Zonen auf die Zone, der Sie das Asset hinzufügen möchten.
Klicken Sie auf dem Tab Assets auf
Assets hinzufügen.Klicken Sie auf Asset hinzufügen.
Wählen Sie unter Typ die Option Storage-Bucket aus.
Geben Sie unter Anzeigename einen Namen für das Asset ein.
Klicken Sie im Feld Bucket auf Durchsuchen. Wenn Sie einen Cloud Storage-Bucket haben, suchen Sie ihn und klicken Sie auf Auswählen. Wenn Sie keinen Cloud Storage-Bucket haben, können Sie einen erstellen, indem Sie auf die Schaltfläche
klicken.Geben Sie einen eindeutigen Namen für den Bucket ein. Klicken Sie auf Weiter.
Wählen Sie einen Standorttyp aus. Klicken Sie auf Weiter.
Wählen Sie eine Standard-Speicherklasse für Ihre Daten aus. Klicken Sie auf Weiter.
Wählen Sie eine Zugriffsebene aus. Klicken Sie auf Weiter.
Wählen Sie eine Datenschutzoption oder Keine aus. Klicken Sie auf Weiter.
Klicken Sie auf Erstellen.
Klicken Sie auf Auswählen.
Klicken Sie auf Fertig.
Klicken Sie auf Weiter.
Wählen Sie unter Erkennungseinstellungen die Option Übernehmen aus, um die Erkennungseinstellungen auf Zonenebene zu übernehmen.
Klicken Sie auf Weiter.
Klicken Sie unter Assets hinzufügen auf Senden.
Warten Sie, bis die Asset-Erstellung abgeschlossen ist.
Informationen zur Verwendung Ihres Data Lakes finden Sie im Abschnitt Weitere Informationen. Andernfalls löschen Sie die Ressourcen, die Sie gemäß der Anleitung im Abschnitt Bereinigen erstellt haben.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:
- In the Google Cloud console, go to the Manage resources page.
- If the project that you plan to delete is attached to an organization, expand the Organization list in the Name column.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Alternativ können Sie die Ressourcen löschen, die in dieser Anleitung verwendet werden. Ein Lake wird erst gelöscht, wenn Sie alle zugehörigen Datenzonenressourcen löschen. Ebenso wird eine Datenzone erst gelöscht, wenn Sie alle zugehörigen Asset-Ressourcen löschen.
Storage-Bucket trennen
So trennen Sie das von Ihnen erstellte Dataplex Universal Catalog-Asset:
Rufen Sie Dataplex Universal Catalog in der Google Cloud -Console auf.
Klicken Sie in der Ansicht Verwalten auf den Namen des Lakes, den Sie erstellt haben.
Klicken Sie auf dem Tab Zonen auf den Namen der Zone, die Sie erstellt haben.
Wählen Sie auf dem Tab Assets das Asset aus, das Sie trennen möchten. Klicken Sie dazu auf das Kästchen links neben dem Bucket-Namen.
Klicken Sie auf Asset löschen.
Klicken Sie zur Bestätigung auf Löschen.
Zone löschen
So löschen Sie die erstellte Dataplex Universal Catalog-Zone:
Rufen Sie Dataplex Universal Catalog in der Google Cloud -Console auf.
Klicken Sie in der Ansicht Verwalten auf den Lake, den Sie erstellt haben.
Wählen Sie auf dem Tab Zonen die zu löschende Zone aus, indem Sie das Kästchen links neben dem Namen der Datenzone anklicken.
Klicken Sie auf Zone löschen.
Klicken Sie zur Bestätigung noch einmal auf Löschen.
Lake löschen
In den folgenden Schritten wird gezeigt, wie Sie den von Ihnen erstellten Dataplex Universal Catalog-Lake löschen.
Rufen Sie Dataplex Universal Catalog in der Google Cloud -Console auf.
Klicken Sie in der Ansicht Verwalten auf den Lake, den Sie erstellt haben.
Klicken Sie oben auf der Seite auf Löschen.
Bestätigen Sie das Löschen, indem Sie „delete“ in das Feld eingeben.
Klicken Sie zur Bestätigung auf Lake löschen.