Créer un lac de catalogue universel Dataplex

Ce document explique comment créer un lac Dataplex Universal Catalog. Vous pouvez créer un lac dans n'importe quelle région où Dataplex Universal Catalog est disponible.

Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Contrôle des accès

    1. Pour créer et gérer votre lac, assurez-vous de disposer des rôles prédéfinis roles/dataplex.admin ou roles/dataplex.editor. Pour en savoir plus, consultez Attribuer un rôle unique.

    2. Pour associer un bucket Cloud Storage d'un autre projet à votre lac, accordez au compte de service Dataplex Universal Catalog un rôle d'administrateur pour le bucket en exécutant la commande suivante :

      gcloud alpha dataplex lakes authorize \
      --project PROJECT_ID_OF_LAKE \
      --storage-bucket-resource BUCKET_NAME
      

    Créer un metastore

    Vous pouvez accéder aux métadonnées Dataplex Universal Catalog au moyen d'un metastore Hive dans les requêtes Spark en associant une instance de service Dataproc Metastore à votre lac Dataplex Universal Catalog. Vous devez disposer d'un service Dataproc Metastore avec gRPC (version 3.1.2 ou ultérieure) associé au lac Dataplex Universal Catalog.

    1. Créez un service Dataproc Metastore.

    2. Configurez l'instance de service Dataproc Metastore de sorte à exposer un point de terminaison gRPC (au lieu du point de terminaison de metastore par défaut Thrift) :

      curl -X PATCH \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
      -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
      
    3. Affichez le point de terminaison gRPC :

      gcloud metastore services describe SERVICE_ID \
        --project PROJECT_ID \
        --location LOCATION \
        --format "value(endpointUri)"
      

    Créer un lac

    Console

    1. Dans la console Google Cloud , accédez à la page Lacs de Dataplex Universal Catalog.

      Accéder à la page "Lacs"

    2. Cliquez sur  Créer.

    3. Saisissez un nom à afficher.

    4. L'ID du lac est généré automatiquement. Si vous préférez, vous pouvez fournir un ID vous-même. Consultez la convention d'attribution des noms de ressources.

    5. Facultatif : saisissez une description.

    6. Spécifiez la Région dans laquelle créer le lac.

      Pour les lacs créés dans une région précise (par exemple, us-central1), vous pouvez associer des données régionales (us-central1) et des données multirégionales (us multi-region) en fonction des paramètres de zone.

    7. Facultatif : ajoutez des libellés à votre lac.

    8. Facultatif : dans la section Metastore, cliquez sur le menu Service de metastore, puis sélectionnez le service que vous avez créé dans la section Avant de commencer.

    9. Cliquez sur Créer.

    gcloud

    Pour créer un lac, utilisez la commande gcloud alpha dataplex lakes create :

    gcloud alpha dataplex lakes create LAKE \
     --location=LOCATION \
     --labels=k1=v1,k2=v2,k3=v3 \
     --metastore-service=METASTORE_SERVICE
    

    Remplacez les éléments suivants :

    • LAKE : nom du nouveau lac
    • LOCATION : renvoie à une région Google Cloud
    • k1=v1,k2=v2,k3=v3 : libellés utilisés (le cas échéant)
    • METASTORE_SERVICE : service Dataproc Metastore, s'il a été créé

    REST

    Pour créer un lac, utilisez la méthode lakes.create.

    Étapes suivantes