Este documento descreve o que são as zonas do Dataplex Universal Catalog e como adicioná-las ao seu data lake do Dataplex Universal Catalog.
Visão geral
As zonas do Catálogo Universal do Dataplex são entidades nomeadas em um lake do Catálogo Universal do Dataplex. São agrupamentos lógicos de dados não estruturados, semiestruturados e estruturados, que consistem em vários recursos, como buckets do Cloud Storage, conjuntos de dados e tabelas do BigQuery.
Um data lake pode incluir uma ou mais zonas. Embora uma zona só possa fazer parte de um lake, ela pode conter recursos que apontam para recursos que fazem parte de projetos fora do projeto principal.
É possível selecionar configurações para uma zona no Dataplex Universal Catalog. Há dois tipos de zonas para escolher: bruta e selecionada.
Zonas brutas
As zonas brutas armazenam dados estruturados, semiestruturados (como arquivos CSV e JSON) e não estruturados em qualquer formato de fontes externas. As zonas brutas são úteis para organizar dados brutos antes de realizar transformações. Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery.
As zonas brutas oferecem suporte à granularidade no nível do bucket ou do conjunto de dados para permissões de leitura e gravação. Não há restrições quanto ao tipo de dados que podem ser armazenados em zonas brutas.
Zonas selecionadas
As zonas selecionadas armazenam dados estruturados. Os dados podem ser armazenados em buckets do Cloud Storage ou em conjuntos de dados do BigQuery.
Os formatos compatíveis com buckets do Cloud Storage incluem Parquet, Avro e ORC. As zonas selecionadas são úteis para organizar dados que precisam ser processados antes de serem usados para análise ou para disponibilizar dados prontos para análise.
Para tabelas do BigQuery, é necessário ter um esquema bem definido e partições no estilo do Hive. Quando você fornece um esquema para uma determinada tabela em uma zona organizada, os dados precisam estar de acordo com o esquema definido para a tabela sem desvio de esquema. Isso significa que os dados precisam ser compatíveis com o esquema definido para a tabela, e as novas partições não podem ter um esquema que entre em conflito com o da tabela.
As zonas selecionadas oferecem suporte à granularidade no nível do bucket do Cloud Storage ou do conjunto de dados do BigQuery para permissões de leitura e gravação.
Antes de começar
Antes de adicionar zonas a um lake, você precisa ter um lake. Se ainda não tiver feito isso, crie um lake.
A maioria dos comandos gcloud lake
requer um local. É possível especificar o local definindo o parâmetro --location
.
Funções exigidas
Para receber a permissão necessária para adicionar uma zona,
peça ao administrador para conceder a você o
papel do IAM de Administrador do Dataplex (roles/dataplex.admin
)
no projeto.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esse papel predefinido contém a
permissão
dataplex.lakes.create
,
que é necessária para
adicionar uma zona.
Também é possível conseguir essa permissão com papéis personalizados ou outros papéis predefinidos.
Adicionar uma zona
É possível adicionar várias zonas ao lake. É possível adicionar uma zona por vez e usar o lake enquanto ela é criada.
Para adicionar uma zona a um data lake, siga estas etapas:
Console
No console Google Cloud , acesse o Dataplex Universal Catalog.
Acesse a visualização Gerenciar.
Na visualização Gerenciar, clique no nome do lake a que você quer adicionar uma zona.
Na guia Zonas, clique em
Adicionar zona.Insira um Nome de exibição para sua zona.
Clique no menu Tipo. Escolha Zona bruta ou Zona selecionada. Saiba mais sobre os tipos de zona compatíveis.
Opcional: insira uma descrição.
Em Locais dos dados, selecione Regional ou Multirregional. Essa escolha não pode ser alterada depois. Os dados de região única e multirregião não podem ser combinados na mesma zona.
Opcional: ative a descoberta de metadados, que permite que o Dataplex Universal Catalog verifique e extraia automaticamente os metadados dos dados na sua zona:
Clique em Configurações de descoberta.
Verifique se a opção Ativar descoberta de metadados está selecionada.
Opcional: em Incluir padrões, liste os arquivos a serem incluídos nas verificações de descoberta.
Opcional: em Padrões de exclusão, liste os arquivos a serem excluídos nas verificações de descoberta. Se você inserir padrões de inclusão e exclusão, os de exclusão serão aplicados primeiro.
Clique no menu Repetições e selecione uma frequência. Se você selecionar Personalizado, no campo Programação, insira uma programação de jobs. Caso contrário, o valor Programação será preenchido automaticamente.
Clique no menu Fuso horário e selecione um fuso horário.
Clique em Criar.
REST
Para adicionar uma zona, use o método lakes.zones.create.
A criação da zona pode levar alguns minutos.
Quando a criação da zona é bem-sucedida, ela entra automaticamente no estado ativo. Se ele falhar, o lake será revertido para o estado anterior.
Depois de criar a zona, você pode mapear os dados armazenados em buckets do Cloud Storage e conjuntos de dados do BigQuery como recursos para ela. Para mais informações, consulte Adicionar um recurso.
A seguir
- Saiba como gerenciar buckets.
- Saiba como criar um lake.
- Saiba mais sobre os registros de auditoria do Cloud.