Ce document explique comment créer un lac Dataplex Universal Catalog. Vous pouvez créer un lac dans n'importe quelle région où Dataplex Universal Catalog est disponible.
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. Pour créer et gérer votre lac, assurez-vous de disposer des rôles prédéfinis
roles/dataplex.admin
ouroles/dataplex.editor
. Pour en savoir plus, consultez Attribuer un rôle unique.Pour associer un bucket Cloud Storage d'un autre projet à votre lac, accordez au compte de service Dataplex Universal Catalog un rôle d'administrateur pour le bucket en exécutant la commande suivante :
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Créez un service Dataproc Metastore.
Configurez l'instance de service Dataproc Metastore de sorte à exposer un point de terminaison gRPC (au lieu du point de terminaison de metastore par défaut Thrift) :
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Affichez le point de terminaison gRPC :
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Dans la console Google Cloud , accédez à la page Lacs de Dataplex Universal Catalog.
Cliquez sur
Créer.Saisissez un nom à afficher.
L'ID du lac est généré automatiquement. Si vous préférez, vous pouvez fournir un ID vous-même. Consultez la convention d'attribution des noms de ressources.
Facultatif : saisissez une description.
Spécifiez la Région dans laquelle créer le lac.
Pour les lacs créés dans une région précise (par exemple,
us-central1
), vous pouvez associer des données régionales (us-central1
) et des données multirégionales (us multi-region
) en fonction des paramètres de zone.Facultatif : ajoutez des libellés à votre lac.
Facultatif : dans la section Metastore, cliquez sur le menu Service de metastore, puis sélectionnez le service que vous avez créé dans la section Avant de commencer.
Cliquez sur Créer.
LAKE
: nom du nouveau lacLOCATION
: renvoie à une région Google Cloudk1=v1,k2=v2,k3=v3
: libellés utilisés (le cas échéant)METASTORE_SERVICE
: service Dataproc Metastore, s'il a été créé- Découvrez comment ajouter des zones à un lac.
- Découvrez comment associer des éléments à une zone.
- Apprenez à sécuriser votre lac.
- Apprenez à gérer votre lac.
Contrôle des accès
Créer un metastore
Vous pouvez accéder aux métadonnées Dataplex Universal Catalog au moyen d'un metastore Hive dans les requêtes Spark en associant une instance de service Dataproc Metastore à votre lac Dataplex Universal Catalog. Vous devez disposer d'un service Dataproc Metastore avec gRPC (version 3.1.2 ou ultérieure) associé au lac Dataplex Universal Catalog.
Créer un lac
Console
gcloud
Pour créer un lac, utilisez la commande gcloud alpha dataplex lakes create
:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Remplacez les éléments suivants :
REST
Pour créer un lac, utilisez la méthode lakes.create.