Criar um lake do catálogo universal do Dataplex

Este documento descreve como criar um data lake do Catálogo Universal do Dataplex. É possível criar um lake em qualquer uma das regiões que oferecem suporte ao Catálogo Universal do Dataplex.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  8. Controle de acesso

    1. Para criar e gerenciar seu lake, verifique se você tem as funções predefinidas roles/dataplex.admin ou roles/dataplex.editor concedidas. Para mais informações, consulte Conceder um único papel.

    2. Para anexar um bucket do Cloud Storage de outro projeto ao seu lake, conceda à seguinte conta de serviço do catálogo universal do Dataplex uma função de administrador no bucket executando o comando a seguir:

      gcloud alpha dataplex lakes authorize \
      --project PROJECT_ID_OF_LAKE \
      --storage-bucket-resource BUCKET_NAME
      

    Criar um metastore

    É possível acessar os metadados do Universal Catalog do Dataplex usando o metastore do Hive em consultas do Spark ao associar uma instância do serviço Metastore do Dataproc ao lake do Universal Catalog do Dataplex. Você precisa ter um metastore do Dataproc compatível com gRPC (versão 3.1.2 ou mais recente) associado ao lake do Catálogo Universal do Dataplex.

    1. Crie um serviço Metastore do Dataproc.

    2. Configure a instância do serviço Dataproc Metastore para expor um endpoint gRPC (em vez do endpoint Thrift Metastore padrão):

      curl -X PATCH \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
      -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
      
    3. Veja o endpoint do gRPC:

      gcloud metastore services describe SERVICE_ID \
        --project PROJECT_ID \
        --location LOCATION \
        --format "value(endpointUri)"
      

    criar um lake

    Console

    1. No console Google Cloud , acesse o Dataplex Universal Catalog.

      Acesse o Dataplex.

    2. Acesse a visualização Gerenciar.

    3. Clique em Criar.

    4. Insira um Nome de exibição.

    5. O ID do data lake é gerado automaticamente para você. Se preferir, você pode fornecer seu próprio ID. Consulte Convenção de nomenclatura de recursos.

    6. Opcional: digite uma Descrição.

    7. Especifique a Região em que o lake será criado.

      Para lakes criados em uma determinada região (por exemplo, us-central1), é possível anexar dados de uma região (us-central1) e de várias regiões (us multi-region), dependendo das configurações de zona.

    8. Opcional: adicione rótulos ao lake.

    9. Opcional: na seção Metastore, clique no menu Serviço do metastore e selecione o serviço criado na seção Antes de começar.

    10. Clique em Criar.

    gcloud

    Para criar um lake, use o comando gcloud alpha dataplex lakes create:

    gcloud alpha dataplex lakes create LAKE \
     --location=LOCATION \
     --labels=k1=v1,k2=v2,k3=v3 \
     --metastore-service=METASTORE_SERVICE
    

    Substitua:

    • LAKE: nome do novo lake
    • LOCATION: refere-se a uma Google Cloud região.
    • k1=v1,k2=v2,k3=v3: rótulos usados (se houver)
    • METASTORE_SERVICE: o serviço do metastore do Dataproc, se criado

    REST

    Para criar um lake, use o método lakes.create.

    A seguir