Este documento descreve como criar um data lake do Catálogo Universal do Dataplex. É possível criar um lake em qualquer uma das regiões que oferecem suporte ao Catálogo Universal do Dataplex.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Para criar e gerenciar seu lake, verifique se você tem as funções predefinidas
roles/dataplex.admin
ouroles/dataplex.editor
concedidas. Para mais informações, consulte Conceder um único papel.Para anexar um bucket do Cloud Storage de outro projeto ao seu lake, conceda à seguinte conta de serviço do catálogo universal do Dataplex uma função de administrador no bucket executando o comando a seguir:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Crie um serviço Metastore do Dataproc.
Configure a instância do serviço Dataproc Metastore para expor um endpoint gRPC (em vez do endpoint Thrift Metastore padrão):
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Veja o endpoint do gRPC:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
No console Google Cloud , acesse o Dataplex Universal Catalog.
Acesse a visualização Gerenciar.
Clique em
Criar.Insira um Nome de exibição.
O ID do data lake é gerado automaticamente para você. Se preferir, você pode fornecer seu próprio ID. Consulte Convenção de nomenclatura de recursos.
Opcional: digite uma Descrição.
Especifique a Região em que o lake será criado.
Para lakes criados em uma determinada região (por exemplo,
us-central1
), é possível anexar dados de uma região (us-central1
) e de várias regiões (us multi-region
), dependendo das configurações de zona.Opcional: adicione rótulos ao lake.
Opcional: na seção Metastore, clique no menu Serviço do metastore e selecione o serviço criado na seção Antes de começar.
Clique em Criar.
LAKE
: nome do novo lakeLOCATION
: refere-se a uma Google Cloud região.k1=v1,k2=v2,k3=v3
: rótulos usados (se houver)METASTORE_SERVICE
: o serviço do metastore do Dataproc, se criado- Saiba como adicionar zonas a um lake.
- Saiba como anexar recursos a uma zona.
- Saiba como proteger seu lake.
- Saiba como gerenciar seu data lake.
Controle de acesso
Criar um metastore
É possível acessar os metadados do Universal Catalog do Dataplex usando o metastore do Hive em consultas do Spark ao associar uma instância do serviço Metastore do Dataproc ao lake do Universal Catalog do Dataplex. Você precisa ter um metastore do Dataproc compatível com gRPC (versão 3.1.2 ou mais recente) associado ao lake do Catálogo Universal do Dataplex.
criar um lake
Console
gcloud
Para criar um lake, use o comando gcloud alpha dataplex lakes create
:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Substitua:
REST
Para criar um lake, use o método lakes.create.