Este documento oferece orientações e práticas recomendadas para usar o Dataplex Universal Catalog.
Escolher um projeto para o lake
Ao selecionar o projeto em que o lake será hospedado, considere os seguintes fatores:
O projeto precisa pertencer ao mesmo perímetro do VPC Service Controls que os dados destinados a estar no lake.
A conta de serviço do data lake exige permissões de administrador nos buckets do Cloud Storage ou nos conjuntos de dados do BigQuery. O catálogo universal do Dataplex cria tabelas externas no BigQuery para tabelas descobertas no Cloud Storage. O Dataplex Universal Catalog também disponibiliza metadados tabela do BigQuery e tabelas descobertas no bucket do Cloud Storage em um serviço do metastore do Dataproc. O metastore do Dataproc está localizado no projeto do data lake.
Configurações e limitações do Cloud Storage
Região: o Dataplex Universal Catalog oferece suporte a buckets de região única e multirregião em algumas Google Cloud regiões.
Classe de armazenamento: buckets do Cloud Storage de todas as classes de armazenamento são compatíveis (Standard, Nearline, Coldline, Archive). Acessar ou verificar dados do Nearline, Coldline ou Archive pode gerar custos adicionais de recuperação de dados.
ACL do bucket: o Dataplex Universal Catalog é compatível apenas com buckets do Cloud Storage com controles de acesso uniformes. Não há suporte para controles de acesso refinado.
Pagamentos do solicitante: os buckets do Cloud Storage com o recurso Pagamentos do solicitante ativado não são compatíveis.
Orientações sobre segurança e permissões
O Dataplex Universal Catalog exige a adição das contas de serviço do Dataplex Universal Catalog como uma conta de serviço administrativa em buckets e conjuntos de dados gerenciados.
Com o Universal Catalog do Dataplex, os analistas podem acessar buckets do Cloud Storage e conjuntos de dados do BigQuery em vários projetos. Para ativar esse acesso, o Dataplex Universal Catalog exige a adição das contas de serviço do Dataplex Universal Catalog com controles administrativos a esses projetos.
Para a descoberta, o Catálogo Universal do Dataplex adiciona a conta de serviço do metastore do Dataproc aos buckets do Cloud Storage. Se você tiver seu próprio cluster do Dataproc Metastore, talvez queira que o lake do Universal Catalog do Dataplex use seu serviço do Dataproc Metastore, o que é uma opção ao criar o lake.
Se você adicionar um bucket do Cloud Storage com acesso refinado a um lake, o Dataplex Universal Catalog vai fornecer acesso total a esse bucket pelo lake, porque as permissões do Dataplex Universal Catalog são propagadas para todos os objetos no bucket. Se você precisar de acesso refinado, recomendamos dividir os dados do bucket em vários buckets.