Práticas recomendadas do Dataplex

Este documento oferece orientações e práticas recomendadas para usar o Dataplex.

Escolha um projeto para seu lago

Ao selecionar o projeto em que o lake será hospedado, considere o seguinte: fatores:

  • O projeto precisa pertencer ao mesmo perímetro do VPC Service Controls que os dados destinados a estar no lago.

  • A conta de serviço do lago precisa de permissões de administrador nos buckets do Cloud Storage ou nos conjuntos de dados do BigQuery. O Dataplex cria tabelas externas no BigQuery para descobertas no Cloud Storage. O Dataplex também oferece metadados de tabela do BigQuery disponíveis e tabelas descobertas na bucket do Cloud Storage, em um metastore do Dataproc. O O metastore do Dataproc está localizado no projeto de data lake.

Configurações e limitações do Cloud Storage

  • Região: o Dataplex oferece suporte a região única e buckets multirregionais em algumas regiões do Google Cloud.

  • Classe de armazenamento: todos os buckets do Cloud Storage classes de armazenamento são compatíveis (Standard, Nearline, Coldline, Archive). Pode haver custos adicionais de recuperação de dados para acesso ou verificação dados Nearline, Coldline ou Archive.

  • ACL do bucket: o Dataplex oferece suporte apenas a buckets do Cloud Storage com controles de acesso uniformes. Não há suporte para controles de acesso refinados.

  • Pagamentos do solicitante: buckets do Cloud Storage com o recurso Pagamentos do solicitante ativado são não tem suporte.

Orientações sobre segurança e permissões

O Dataplex exige a adição do Dataplex contas de serviço como uma conta de serviço administrativa em buckets e conjuntos de dados gerenciados.

Com o Dataplex, os analistas podem acessar buckets do Cloud Storage e os conjuntos de dados do BigQuery em vários projetos. Para permitir esse acesso, o Dataplex exige a adição das contas de serviço do Dataplex com controles administrativos a esses projetos.

Para o Discovery, o Dataplex adiciona a Conta de serviço do Dataproc Metastore para o Cloud Storage buckets de armazenamento. Se você tiver seu próprio cluster do Dataproc Metastore, talvez seja melhor fazer com que o lake do Dataplex use seu serviço do Dataproc Metastore, que é uma opção ao criar o lake.

Se você adicionar um bucket do Cloud Storage com acesso refinado a um lake, O Dataplex vai fornecer acesso total a esse bucket pelo lake porque as permissões do Dataplex são propagadas para todos os objetos na do Google Cloud. Se você precisar de acesso refinado, é recomendável dividir os dados em vários buckets.

A seguir