Créer un lac de catalogue universel Dataplex

Ce document explique comment créer un lac Dataplex Universal Catalog. Vous pouvez créer un lac dans l'une des régions compatibles avec Dataplex Universal Catalog.

Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  8. Contrôle des accès

    1. Pour créer et gérer votre lac, assurez-vous de disposer des rôles prédéfinis roles/dataplex.admin ou roles/dataplex.editor. Pour en savoir plus, consultez Attribuer un rôle unique.

    2. Pour associer un bucket Cloud Storage d'un autre projet à votre lac de données, accordez un rôle d'administrateur au compte de service Dataplex Universal Catalog sur le bucket en exécutant la commande suivante :

      gcloud alpha dataplex lakes authorize \
      --project PROJECT_ID_OF_LAKE \
      --storage-bucket-resource BUCKET_NAME
      

    Créer un metastore

    Vous pouvez accéder aux métadonnées Dataplex Universal Catalog à l'aide de Hive Metastore dans les requêtes Spark en associant une instance de service Dataproc Metastore à votre lac Dataplex Universal Catalog. Vous devez disposer d'un service Dataproc Metastore compatible avec gRPC (version 3.1.2 ou ultérieure) associé au lac Dataplex Universal Catalog.

    1. Créez un service Dataproc Metastore.

    2. Configurez l'instance de service Dataproc Metastore pour exposer un point de terminaison gRPC (au lieu du point de terminaison Thrift Metastore par défaut) :

      curl -X PATCH \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
      -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
      
    3. Affichez le point de terminaison gRPC :

      gcloud metastore services describe SERVICE_ID \
        --project PROJECT_ID \
        --location LOCATION \
        --format "value(endpointUri)"
      

    Créer un lac

    Console

    1. Dans la console Google Cloud , accédez à Dataplex Universal Catalog.

      Accéder à Dataplex

    2. Accédez à la vue Gérer.

    3. Cliquez sur  Créer.

    4. Saisissez un nom à afficher.

    5. L'ID du lac est généré automatiquement. Si vous préférez, vous pouvez fournir votre propre ID. Consultez la convention d'attribution de noms aux ressources.

    6. Facultatif : saisissez une Description.

    7. Spécifiez la Région dans laquelle créer l'instance.

      Pour les lacs créés dans une région donnée (par exemple, us-central1), vous pouvez associer des données monorégionales (us-central1) et multirégionales (us multi-region) en fonction des paramètres de zone.

    8. Facultatif : Ajoutez des libellés à votre lac.

    9. Facultatif : Dans la section Metastore, cliquez sur le menu Service de métastore, puis sélectionnez le service que vous avez créé dans la section Avant de commencer.

    10. Cliquez sur Créer.

    gcloud

    Pour créer un lac, utilisez la commande gcloud alpha dataplex lakes create :

    gcloud alpha dataplex lakes create LAKE \
     --location=LOCATION \
     --labels=k1=v1,k2=v2,k3=v3 \
     --metastore-service=METASTORE_SERVICE
    

    Remplacez les éléments suivants :

    • LAKE : nom du nouveau lac
    • LOCATION : fait référence à une région Google Cloud
    • k1=v1,k2=v2,k3=v3 : libellés utilisés (le cas échéant)
    • METASTORE_SERVICE : service Dataproc Metastore, s'il a été créé

    REST

    Pour créer un lac, utilisez la méthode lakes.create.

    Étape suivante