Criar uma malha de dados


É possível usar o Dataplex Universal Catalog para criar uma arquitetura de malha de dados. Neste guia, você vai aprender a usar os recursos do Dataplex Universal Catalog, como um lake, zonas e recursos, para criar uma malha de dados.

Uma malha de dados é uma abordagem organizacional e técnica que descentraliza a propriedade dos dados entre os proprietários de dados do domínio. Esses proprietários fornecem os dados como um produto de maneira padrão e facilitam a comunicação entre diferentes partes da organização para distribuir conjuntos de dados em diferentes locais. Saiba mais sobre as arquiteturas de malha de dados.

Objetivos

Neste guia, você vai usar as entidades do Dataplex Universal Catalog para criar uma arquitetura de malha de dados:

  • Crie um data lake do Catálogo Universal do Dataplex que funcione como o domínio da sua malha de dados.
  • Adicione zonas ao lake que representam equipes individuais em cada domínio e forneça contratos de dados gerenciados.
  • Anexe recursos que mapeiam dados armazenados no Cloud Storage.

Custos

Neste documento, você vai usar os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.

Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Ao concluir as tarefas descritas neste documento, é possível evitar o faturamento contínuo excluindo os recursos criados. Saiba mais em Limpeza.

Antes de começar

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Ative a API Dataplex Universal Catalog.

    Ativar a API Dataplex

  4. Crie um serviço Metastore do Dataproc.

Criar um bucket do Cloud Storage

Você precisa de um bucket do Cloud Storage para armazenar os recursos de dados da sua malha de dados.

Para criar um bucket do Cloud Storage, siga as instruções em criar um bucket do Cloud Storage. Ao fazer isso, observe o seguinte:

  • Nomeie o bucket.
  • Em Tipo de local, escolha Região e selecione us-central1 (Iowa) no menu.

Criar um domínio

  1. No console Google Cloud , acesse a página Catálogo universal do Dataplex.

    Acessar o Dataplex Universal Catalog

  2. Acesse a visualização Gerenciar.

  3. Clique em Criar para criar um novo lake, que funciona como sua malha de dados.

  4. No campo Nome de exibição, insira My data mesh.

  5. Em Região, selecione us-central1.

  6. Selecione o serviço do metastore do Dataproc que você criou e configurou anteriormente como o metastore associado.

  7. Clique em Criar.

Criar zonas no lake

Depois de criar um domínio com um data lake do Catálogo Universal do Dataplex, é possível hospedar contratos de dados gerenciados e equipes individuais no domínio usando zonas. Há dois tipos de zonas:

  • As zonas brutas são usadas normalmente para armazenar dados em qualquer formato de fontes externas no Cloud Storage. As zonas brutas são úteis para dados que exigem mais processamento antes de ficarem prontos para consumo.

  • As zonas selecionadas são usadas para dados estruturados no Cloud Storage que precisam estar em conformidade com determinados formatos de arquivo e são organizados em um layout de diretório compatível com o Hive. Eles são mais úteis para dados prontos para consumo e análise.

Cada domínio (por exemplo, sales, customers, products) precisa ter pelo menos uma zona bruta e uma zona organizada.

Outras zonas são usadas para gerenciar contratos de dados entre equipes ou para fornecer uma análise mais detalhada para equipes em um determinado domínio. Por exemplo, gerenciamento de inventário no domínio do produto. Os proprietários de dados podem gerenciar e acessar os dados no domínio deles.

  1. No console Google Cloud , navegue até a visualização Gerenciar do Dataplex Universal Catalog.

  2. Clique no nome do lake (My data mesh) a que você quer adicionar uma zona.

  3. Na guia Zonas, clique em Adicionar zona.

  4. No campo Nome de exibição, insira My sub domain. O Dataplex Universal Catalog gera automaticamente um ID para sua zona.

  5. Em Tipo, selecione Zona bruta.

  6. Clique em Criar.

Anexar recursos às suas zonas

Anexe recursos de dados à sua zona. Um recurso de dados, os recursos de armazenamento que contêm seus dados, pode ser um bucket do Cloud Storage ou um conjunto de dados do BigQuery. Esta é a etapa final na criação da arquitetura de malha de dados.

  1. Na visualização Gerenciar do Dataplex Universal Catalog, clique no lake que você criou (My data mesh).

  2. Na guia Zonas, clique na zona (My sub domain) em que você quer adicionar o recurso.

  3. Na guia Recursos, clique em Adicionar recursos.

  4. Clique em Adicionar um recurso.

  5. Em Tipo, selecione Bucket do Cloud Storage.

  6. No campo Nome de exibição , insira Data mesh asset. O Dataplex Universal Catalog gera automaticamente um ID de recurso para você.

  7. No campo Bucket, clique em Procurar.

    1. Selecione o bucket na lista.
    2. Clique em Selecionar.
  8. Clique em Concluído e em Continuar.

  9. Clique em Continuar para aceitar as Configurações avançadas padrão.

  10. Clique em Enviar.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Excluir o projeto

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Excluir sua arquitetura de malha de dados

  1. No console Google Cloud , navegue até a visualização Gerenciar do Dataplex Universal Catalog.

  2. No lake que você quer excluir, clique em Ver mais e em Excluir.

  3. Para confirmar a ação, digite delete e clique em Excluir lake.

A seguir