Creare un lake Dataplex Universal Catalog

Questo documento descrive come creare un lake Dataplex Universal Catalog. Puoi creare un lake in una qualsiasi delle regioni che supportano Dataplex Universal Catalog.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  8. Controllo degli accessi

    1. Per creare e gestire il tuo lake, assicurati di avere i ruoli predefiniti roles/dataplex.admin o roles/dataplex.editor concessi. Per ulteriori informazioni, consulta Concedere un singolo ruolo.

    2. Per collegare un bucket Cloud Storage di un altro progetto al tuo lake, concedi al seguente account di servizio Dataplex Universal Catalog un ruolo di amministratore sul bucket eseguendo questo comando:

      gcloud alpha dataplex lakes authorize \
      --project PROJECT_ID_OF_LAKE \
      --storage-bucket-resource BUCKET_NAME
      

    Crea un metastore

    Puoi accedere ai metadati di Dataplex Universal Catalog utilizzando Hive Metastore nelle query Spark associando un'istanza del servizio Dataproc Metastore al tuo lake Dataplex Universal Catalog. Devi disporre di un servizio Dataproc Metastore abilitato a gRPC (versione 3.1.2 o successive) associato al lake Dataplex Universal Catalog.

    1. Crea un servizio Dataproc Metastore.

    2. Configura l'istanza del servizio Dataproc Metastore per esporre un endpoint gRPC (anziché l'endpoint Thrift Metastore predefinito):

      curl -X PATCH \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
      -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
      
    3. Visualizza l'endpoint gRPC:

      gcloud metastore services describe SERVICE_ID \
        --project PROJECT_ID \
        --location LOCATION \
        --format "value(endpointUri)"
      

    Crea un lake

    Console

    1. Nella Google Cloud console, vai a Dataplex Universal Catalog.

      Vai a Dataplex

    2. Vai alla visualizzazione Gestisci.

    3. Fai clic su Crea.

    4. Inserisci un nome visualizzato.

    5. L'ID del lago viene generato automaticamente. Se preferisci, puoi fornire il tuo documento di identità. Consulta Convenzioni di denominazione delle risorse.

    6. (Facoltativo) Inserisci una Descrizione.

    7. Specifica la Regione in cui creare il lake.

      Per i lake creati in una determinata regione (ad esempio us-central1), puoi allegare i dati sia a singola regione (us-central1) che a più regioni (us multi-region) a seconda delle impostazioni della zona.

    8. (Facoltativo) Aggiungi etichette al lake.

    9. (Facoltativo) Nella sezione Metastore, fai clic sul menu Servizio Metastore e seleziona il servizio che hai creato nella sezione Prima di iniziare.

    10. Fai clic su Crea.

    gcloud

    Per creare un lake, utilizza il comando gcloud alpha dataplex lakes create:

    gcloud alpha dataplex lakes create LAKE \
     --location=LOCATION \
     --labels=k1=v1,k2=v2,k3=v3 \
     --metastore-service=METASTORE_SERVICE
    

    Sostituisci quanto segue:

    • LAKE: il nome del nuovo lago
    • LOCATION: si riferisce a una Google Cloud regione
    • k1=v1,k2=v2,k3=v3: etichette utilizzate (se presenti)
    • METASTORE_SERVICE: il servizio Dataproc Metastore, se creato

    REST

    Per creare un lake, utilizza il metodo lakes.create.

    Passaggi successivi