Guia de início rápido: criar um lake
Este documento mostra como começar a usar o Catálogo Universal do Dataplex no console doGoogle Cloud . Para isso, vamos ajudar você a criar um lake, adicionar uma zona e anexar um recurso.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
-
Make sure that you have the following role or roles on the project:
roles/dataplex.admin
,roles/dataplex.editor
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Acessar o IAM - Selecionar um projeto.
- Clique em CONCEDER ACESSO.
-
No campo Novos principais, insira seu identificador de usuário. Normalmente, é o endereço de e-mail de uma Conta do Google.
- Na lista Selecionar um papel, escolha um.
- Para conceder outros papéis, clique em Adicionar outro papel e adicione cada papel adicional.
- Clique em Salvar.
-
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
-
Make sure that you have the following role or roles on the project:
roles/dataplex.admin
,roles/dataplex.editor
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Acessar o IAM - Selecionar um projeto.
- Clique em CONCEDER ACESSO.
-
No campo Novos principais, insira seu identificador de usuário. Normalmente, é o endereço de e-mail de uma Conta do Google.
- Na lista Selecionar um papel, escolha um.
- Para conceder outros papéis, clique em Adicionar outro papel e adicione cada papel adicional.
- Clique em Salvar.
-
- Crie um bucket do Cloud Storage:
- In the Google Cloud console, go to the Cloud Storage Buckets page.
- Click Create.
- On the Create a bucket page, enter your bucket information. To go to the next
step, click Continue.
- For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
-
In the Choose where to store your data section, do the following:
- Select a Location type.
- Choose a location where your bucket's data is permanently stored from the Location type drop-down menu.
- If you select the dual-region location type, you can also choose to enable turbo replication by using the relevant checkbox.
- To set up cross-bucket replication, select
Add cross-bucket replication via Storage Transfer Service and
follow these steps:
Set up cross-bucket replication
- In the Bucket menu, select a bucket.
In the Replication settings section, click Configure to configure settings for the replication job.
The Configure cross-bucket replication pane appears.
- To filter objects to replicate by object name prefix, enter a prefix that you want to include or exclude objects from, then click Add a prefix.
- To set a storage class for the replicated objects, select a storage class from the Storage class menu. If you skip this step, the replicated objects will use the destination bucket's storage class by default.
- Click Done.
-
In the Choose how to store your data section, do the following:
- In the Set a default class section, select the following: Standard.
- To enable hierarchical namespace, in the Optimize storage for data-intensive workloads section, select Enable hierarchical namespace on this bucket.
- In the Choose how to control access to objects section, select whether or not your bucket enforces public access prevention, and select an access control method for your bucket's objects.
-
In the Choose how to protect object data section, do the
following:
- Select any of the options under Data protection that you
want to set for your bucket.
- To enable soft delete, click the Soft delete policy (For data recovery) checkbox, and specify the number of days you want to retain objects after deletion.
- To set Object Versioning, click the Object versioning (For version control) checkbox, and specify the maximum number of versions per object and the number of days after which the noncurrent versions expire.
- To enable the retention policy on objects and buckets, click the Retention (For compliance) checkbox, and then do the following:
- To enable Object Retention Lock, click the Enable object retention checkbox.
- To enable Bucket Lock, click the Set bucket retention policy checkbox, and choose a unit of time and a length of time for your retention period.
- To choose how your object data will be encrypted, expand the Data encryption section (Data encryption method. ), and select a
- Select any of the options under Data protection that you
want to set for your bucket.
- Click Create.
criar um lake
Um lake é uma construção lógica que representa um domínio de dados ou uma unidade de negócios. Por exemplo, se você precisar organizar dados com base no uso do grupo, crie um lake para cada departamento (por exemplo, varejo, vendas e finanças).
As etapas a seguir mostram como criar um lake usando o console Google Cloud .
Acesse o Dataplex Universal Catalog no console Google Cloud .
Acesse a visualização Gerenciar.
Clique em
Criar.Insira um Nome de exibição.
O ID do data lake é gerado automaticamente para você.
Especifique a Região em que o lake será criado.
Para lakes criados em uma determinada região (por exemplo,
us-central1
), os dados de uma região (us-central1
) e de várias regiões (us multi-region
) podem ser anexados, dependendo das configurações de zona do Google Analytics.Clique em Criar.
adicionar uma zona a um lake
Depois de criar um lake, é possível adicionar zonas a ele. As zonas são agrupamentos lógicos dentro de um lake, úteis para categorizar dados estruturados e não estruturados.
Na visualização Gerenciar, clique no nome do lake a que você quer adicionar uma zona.
Clique em
Adicionar zona.Insira um Nome de exibição para sua zona.
Clique no menu suspenso Tipo. Escolha Zona bruta ou Zona selecionada. Saiba mais sobre os tipos de zonas.
Em Locais dos dados, selecione Regional ou Multirregional. Essa escolha não pode ser alterada depois. Os dados de região única e multirregião não podem ser combinados na mesma zona.
Clique em Criar.
A criação da zona pode levar alguns minutos.
Anexar um recurso
Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery e anexados como recursos a zonas de dados em um lake do Dataplex Universal Catalog.
Para anexar seu bucket do Cloud Storage como um recurso, siga estas etapas:
Na visualização Gerenciar, clique no nome do lake a que você quer anexar um bucket do Cloud Storage.
Na guia Zonas, clique na zona em que você quer adicionar o recurso.
Na guia Recursos, clique em
Adicionar recursos.Clique em Adicionar um recurso.
Em Tipo, selecione Bucket do Storage.
Em Nome de exibição, insira um nome para o recurso.
No campo Bucket, clique em Procurar. Se você tiver um bucket do Cloud Storage, encontre-o e clique em Selecionar. Se você não tiver um bucket do Cloud Storage, clique no botão
para criar um.Digite um nome exclusivo para o bucket. Clique em Continuar.
Escolha um Tipo de local. Clique em Continuar.
Escolha uma classe de armazenamento padrão para seus dados. Clique em Continuar.
Escolha um nível de controle de acesso. Clique em Continuar.
Escolha uma opção de proteção de dados ou Nenhuma. Clique em Continuar.
Clique em Criar.
Clique em Selecionar.
Clique em Concluído.
Clique em Continuar.
Em Configurações de descoberta, selecione Herdar para herdar as configurações de descoberta no nível da zona.
Clique em Continuar.
Em Adicionar recursos, clique em Enviar.
Aguarde a conclusão da criação do recurso.
Para usar seu lake, consulte a seção Próximas etapas. Caso contrário, exclua os recursos criados seguindo as etapas da seção Limpeza.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
- In the Google Cloud console, go to the Manage resources page.
- If the project that you plan to delete is attached to an organization, expand the Organization list in the Name column.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Como alternativa, é possível excluir os recursos usados neste tutorial. Um lake não é excluído até que você exclua todos os recursos da zona de dados dele. Da mesma forma, uma zona de dados não é excluída, a menos que você exclua todos os recursos de ativos dela.
Desvincular o bucket de armazenamento
Para separar o recurso do Catálogo Universal do Dataplex que você criou, siga estas etapas:
Acesse o Dataplex Universal Catalog no console Google Cloud .
Na visualização Gerenciar, clique no nome do lake que você criou.
Na guia Zonas, clique no nome da zona que você criou.
Na guia Recursos, marque a caixa à esquerda do nome do bucket para desvincular o recurso.
Clique em Excluir recurso.
Clique em Excluir para confirmar a remoção.
Excluir a zona
Para excluir a zona do Catálogo Universal do Dataplex que você criou, siga estas etapas:
Acesse o Dataplex Universal Catalog no console Google Cloud .
Na visualização Gerenciar, clique no lake que você criou.
Na guia Zonas, marque a caixa à esquerda do nome da zona de dados para selecionar a zona que você quer excluir.
Clique em Excluir zona.
Clique novamente em Excluir para confirmar a ação.
Excluir o lake
As etapas a seguir mostram como excluir o lake do catálogo universal do Dataplex que você criou.
Acesse o Dataplex Universal Catalog no console Google Cloud .
Na visualização Gerenciar, clique no lake que você criou.
Na parte de cima da página, clique em Excluir.
Confirme a exclusão digitando "delete" no campo.
Clique em Excluir lake para confirmar.