Sobre o gerenciamento de metadados no Dataplex Universal Catalog

O Dataplex Universal Catalog oferece uma plataforma central para armazenar, gerenciar e acessar seus metadados. Este documento descreve os recursos de gerenciamento de metadados do Dataplex Universal Catalog.

O Dataplex Universal Catalog oferece um inventário unificado de recursos Google Cloud e locais. Os metadados dos recursos Google Cloud são recuperados e armazenados automaticamente pelo Dataplex Universal Catalog. Também é possível trazer seus próprios metadados de recursos de terceiros para o Dataplex Universal Catalog.

É possível enriquecer seu inventário com metadados técnicos e comerciais adicionais que capturam o contexto e o conhecimento sobre seus recursos. Você também pode pesquisar e descobrir seus dados em toda a organização e ativar a governança de dados nos seus recursos.

Você pode definir o Catálogo Universal do Dataplex como sua experiência de catálogo padrão. Se você estiver usando o Data Catalog, faça a transição do conteúdo e do uso independente do Data Catalog para o Dataplex Universal Catalog. Para mais informações, consulte Fazer a transição do Data Catalog para o Dataplex Universal Catalog.

Como funciona o gerenciamento de metadados

Os recursos de gerenciamento de metadados no Dataplex Universal Catalog são baseados nos seguintes conceitos:

Entrada

Uma entrada representa um recurso de dados. Isso é semelhante às entradas no Data Catalog.

Exemplo: uma tabela do BigQuery chamada test-project.sales_data.customer_orders é representada como uma entrada.

Uma coluna de uma entrada representa uma subseção específica de um recurso de dados, como uma única coluna em uma tabela do BigQuery ou um campo em um arquivo JSON. Com as colunas, é possível anexar metadados a campos individuais em uma entrada, não apenas à entrada como um todo. As colunas não são definidas diretamente. Elas são criadas quando você anexa um aspecto do tipo schema a uma entrada. As colunas também são chamadas de caminhos.

Exemplo: para descrever o campo email_address na entrada customer_orders como contendo informações de identificação pessoal (PII), anexe um aspecto à coluna email_address.

Para mais informações sobre entradas, consulte Entradas.

Aspecto

Um aspecto é um conjunto de campos de metadados relacionados. É possível anexar um aspecto a uma entrada para descrevê-la como um todo. A maior parte dos metadados é descrita por aspectos em uma entrada. Isso é semelhante às tags no Data Catalog. No entanto, os aspectos são armazenados em entradas, não como recursos independentes.

Exemplo: para definir todas as colunas da entrada customer_orders, como order_id, order_date e email_address, anexe um aspecto schema à entrada customer_orders. Para especificar que a coluna email_address contém um endereço de e-mail, anexe um aspecto schema a ela.email_address

Para mais informações sobre aspectos, consulte Aspectos.

Tipo de entrada

Um tipo de entrada é um modelo para criar entradas. Ele estabelece os elementos essenciais de metadados, descritos como uma lista de aspectos obrigatórios para entradas desse tipo. Um tipo de entrada especifica quais tipos de aspecto são obrigatórios para um recurso de dados específico.

Exemplo: para garantir que todas as entradas tenham os metadados necessários, crie um tipo de entrada chamado StandardOperationalTable que exija um aspecto OwnerInfo para ser anexado a qualquer nova entrada desse tipo.

Para mais informações sobre os tipos de entradas, consulte Tipos de entradas.

Tipo de aspecto

Um tipo de aspecto é um modelo reutilizável para aspectos. Cada aspecto é uma instância de um tipo de aspecto. Isso é semelhante aos modelos de tag no Data Catalog.

Por exemplo, para definir um modelo reutilizável de dados de contato, é possível definir um tipo de aspecto chamado ContactInfo com campos para owner_name, email e support_team. Em seguida, você pode criar aspectos ContactInfo com base nesse modelo e anexá-los a entradas ou colunas.

Para mais informações sobre os tipos de aspectos, consulte Tipos de aspectos.

Grupo de entradas

Um grupo de entrada é um contêiner de entradas que serve como uma unidade de gerenciamento para elas. Por exemplo, use um grupo de entradas para configurar o controle de acesso do Identity and Access Management, a atribuição do projeto ou o local das entradas no grupo. Isso é semelhante aos grupos de entradas no Data Catalog.

Exemplo: uma equipe financeira quer gerenciar as permissões de todas as tabelas de uma vez. Eles podem criar um grupo de entradas chamado production_finance_data e incluir as entradas das tabelas customer_orders, quarterly_revenue e employee_salaries nele.

Para mais informações sobre grupos de entradas, consulte Grupos de entradas.

Entradas e grupos de entradas
Figura 1. Entradas e grupos de entradas
Tipos de aspecto e tipos de entrada
Figura 2. Tipos de aspecto e tipos de entrada

Dataplex Universal Catalog x Data Catalog

O Dataplex Universal Catalog oferece recursos integrados para gerenciar seus metadados. O armazenamento de metadados e os métodos de API são integrados à API Dataplex.

Os principais recursos de gerenciamento de metadados no Dataplex Universal Catalog incluem o seguinte:

  • Metamodelo mais robusto

    • Entradas digitadas. É possível aplicar padrões mínimos de metadados definindo o conteúdo de metadados necessário para entradas personalizadas.
    • Metamodelo configurável pelo usuário para entradas personalizadas, que ajuda a tornar a ingestão personalizada mais robusta e melhora a consistência e a abrangência dos metadados personalizados.
    • Suporte a uma variedade e complexidade maiores de metadados, incluindo estruturas de aninhamento, como listas, mapas e matrizes.
  • Melhoria na escalonabilidade, incluindo a capacidade de interagir com todos os metadados associados a uma entrada por meio de operações CRUD atômicas únicas e de buscar várias anotações de metadados associadas em respostas de pesquisa ou lista.

A tabela a seguir compara os recursos de gerenciamento de metadados do Dataplex Universal Catalog e do Data Catalog:

Comparação entre o Dataplex Universal Catalog e o Data Catalog
Recurso Dataplex Universal Catalog Data Catalog
Fontes Google Cloud compatíveis Todas as fontes descritas na seção Fontes Google Cloud compatíveis deste documento. Todas as fontes descritas em Entradas e grupos de entradas.
Ingestão de fontes personalizadas

Ingestão em entradas personalizadas com estrutura controlada, definida por tipos de entrada.

As entradas e os grupos de entrada personalizados do Data Catalog ficam disponíveis no Dataplex Universal Catalog no tipo de entrada generic.

Ingestão em entradas personalizadas genéricas.
Aprimoramento de metadados O contexto dos metadados para entradas é capturado usando glossários, aspectos e tipos de aspectos comerciais. O contexto dos metadados para entradas é capturado usando glossários de negócios, tags e modelos de tag.
Pesquisar A pesquisa é realizada nos seguintes itens:
  • Todas as Google Cloud fontes descritas em Fontes Google Cloud compatíveis
  • Entradas personalizadas criadas no Dataplex Universal Catalog
  • Aspectos criados no Dataplex Universal Catalog
  • Entradas personalizadas criadas no Data Catalog e transferidas para o Dataplex Universal Catalog

Os resultados da pesquisa incluem apenas os recursos que pertencem à mesma organização e ao mesmo perímetro da VPC-SC que o projeto em que a pesquisa é realizada. Ao usar o console Google Cloud , esse é o projeto selecionado no console.

Para pesquisar entradas, você precisa de pelo menos uma das seguintes funções do IAM no projeto usado para pesquisa: administrador do Dataplex Catalog, editor do Dataplex Catalog ou leitor do Dataplex Catalog. As permissões nos resultados da pesquisa são verificadas independentemente do projeto selecionado.

A pesquisa é realizada nos seguintes itens:
  • Todas as fontes de Google Cloud descritas em Entradas e grupos de entradas
  • Entradas personalizadas criadas no Data Catalog
  • Tags criadas no Data Catalog
Linhagem de dados

A linhagem de dados recupera detalhes de entrada para nós de recursos usando a API Dataplex.

O console Google Cloud mostra os aspectos anexados.

A linhagem de dados recupera detalhes de entrada para nós de recursos usando a API Data Catalog.

Glossários de negócios

Com o glossário de negócios, é possível criar uma taxonomia para termos comerciais e associá-los a recursos e colunas de dados. Use a pesquisa para descobrir recursos vinculados a um termo.

Com o glossário de negócios, você pode criar uma taxonomia para termos comerciais e associá-los a colunas. Use a pesquisa para descobrir recursos vinculados a um termo.

A tabela a seguir descreve como os recursos no Dataplex Universal Catalog correspondem aos recursos do Data Catalog:

Mapeamento entre recursos do Dataplex Universal Catalog e do Data Catalog
Recurso do Dataplex Universal Catalog Recurso do Data Catalog Descrição
Tipo de aspecto (global) Modelo de tag pública Os modelos de tag são recursos regionais. No entanto, é possível usá-las para criar tags em várias regiões. Os modelos de tag correspondem aos tipos de aspecto global no Dataplex Universal Catalog.
Aspecto opcional Tag pública As tags públicas no Data Catalog correspondem a aspectos opcionais no Dataplex Universal Catalog.
Grupo de entradas Grupo de entradas Para fontes do Google Cloud , os grupos de entrada do sistema, como @bigquery, são estabelecidos por projeto no Dataplex Universal Catalog.
Aspectos obrigatórios da entrada personalizada Entrada personalizada

O Data Catalog e o Dataplex Universal Catalog compartilham conceitos semelhantes para entradas personalizadas.

As propriedades de entrada padrão são modeladas como aspectos obrigatórios no Dataplex Universal Catalog.

Aspectos obrigatórios para entrada no sistema Entrada do sistema (Google Cloud) Os metadados que descrevem entidades integradas, como Schema para tabelas do BigQuery, são capturados nos aspectos obrigatórios dos tipos de aspectos definidos pelo sistema.
Glossários de negócios Glossários de negócios Use glossários para criar uma taxonomia de termos comerciais, padronizando o contexto de negócios em toda a empresa.

Para mais informações sobre os recursos disponíveis no Data Catalog, mas não compatíveis com o Dataplex Universal Catalog, consulte a seção Recursos de gerenciamento de metadados não compatíveis com o Dataplex Universal Catalog neste documento.

Para usuários atuais do Data Catalog

Se você já estiver usando o Data Catalog, observe o seguinte:

  • As entradas personalizadas, o contexto da visão geral, os glossários e os grupos de entrada criados no Data Catalog ficam disponíveis no Dataplex Universal Catalog.
  • Como administrador, você pode disponibilizar simultaneamente o conteúdo de tags e modelos de tags do Data Catalog no Dataplex Universal Catalog. Para mais informações, consulte Fazer a transição do Data Catalog para o Dataplex Universal Catalog.
  • Ao pesquisar recursos de dados no Dataplex Universal Catalog, os metadados criados diretamente nele e os metadados transferidos do Data Catalog para o Dataplex Universal Catalog são incluídos.
  • Ao pesquisar recursos de dados no Data Catalog, somente os metadados criados nele são incluídos.
  • As descrições de grupos de entrada no Data Catalog que excedem 1.024 caracteres são truncadas para 1.024 caracteres no Dataplex Universal Catalog.
  • Como administrador, para disponibilizar no Dataplex Universal Catalog os glossários e links associados entre termos comerciais e colunas criados no Data Catalog, siga o processo de transição.

Para mais informações sobre como fazer a transição do conteúdo e do uso independente do Data Catalog para o Dataplex Universal Catalog, consulte Fazer a transição do Data Catalog para o Dataplex Universal Catalog.

Fontes compatíveis

  • Descoberta automática de dados do Cloud Storage
  • Os metadados das seguintes fontes do Google Cloud são ingeridos automaticamente no Dataplex Universal Catalog:
    • Trocas e listagens do BigQuery Sharing (antigo Analytics Hub)
    • Conjuntos de dados, tabelas, modelos, rotinas, conexões e conjuntos de dados vinculados do BigQuery
    • Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
    • Repositórios do Dataform e recursos de código
    • Instâncias, bancos de dados, esquemas, tabelas e visualizações do Cloud SQL. Consulte Como ativar a integração do Cloud SQL
    • Serviços, bancos de dados e tabelas do Dataproc Metastore
    • Tópicos do Pub/Sub
    • Instâncias, bancos de dados, tabelas e visualizações do Spanner
    • Modelos, conjuntos de dados, grupos de atributos, visualizações de atributos e instâncias de loja on-line da Vertex AI

Para importar metadados de uma fonte terceirizada para o Dataplex Universal Catalog, use um pipeline de conectividade gerenciada.

Restrições de projeto e local

Os recursos do catálogo no Dataplex Universal Catalog estão em vários projetos e locais. Considere as seguintes limitações:

  • Local:

    • O local de uma entrada precisa corresponder ao local do tipo de entrada ou o tipo de entrada precisa ser global.
    • Um aspecto adicionado a uma entrada precisa ser baseado em um tipo de aspecto armazenado no mesmo local que a entrada ou o tipo de aspecto precisa ser global.
    • Um tipo de entrada precisa ser composto de tipos de aspectos armazenados no mesmo local que o tipo de entrada.
  • Projeto:

    • Se um tipo de entrada fizer referência a tipos personalizados de aspecto, eles precisarão estar no mesmo local e projeto do tipo de entrada.

Recursos de gerenciamento de metadados que não são compatíveis com o Dataplex Universal Catalog

Os seguintes recursos disponíveis no Data Catalog não são compatíveis com o Dataplex Universal Catalog:

  • O conceito de aspectos e tipos de aspectos particulares (equivalentes a tags e modelos de tags particulares no Data Catalog) não existe no Dataplex Universal Catalog.
  • A pesquisa de tags de política não é compatível com a pesquisa do Dataplex Universal Catalog. Consequentemente, os predicados policytag e policytagid não funcionam na pesquisa do Dataplex Universal Catalog.
  • Quando você traz grupos de entrada personalizados, entradas personalizadas, modelos de tags e tags do Data Catalog para o Dataplex Universal Catalog, as permissões originais não são transferidas. É preciso configurar explicitamente as permissões do IAM para os metadados copiados antes de usá-los.
  • O suporte do Terraform para gerenciar aspectos e entradas personalizadas não está disponível. Em vez disso, gerencie programaticamente seus metadados personalizados em grande escala usando um pipeline de conectividade gerenciada ou os métodos da API de importação de metadados. O Terraform oferece suporte a grupos de entrada, tipos de entrada e tipos de aspecto. Consulte Provisionar recursos do Dataplex Universal Catalog com o Terraform.
  • Não é possível enviar resultados da inspeção da Proteção de dados sensíveis diretamente para o catálogo no Dataplex Universal Catalog. Em vez disso, é possível enviar os resultados da inspeção da Proteção de Dados Sensíveis para o Data Catalog e, em seguida, fazer a transição dos resultados para o Dataplex Universal Catalog.
  • Não é possível listar tipos de entrada e tipos de aspecto em projetos usando a API. É possível restringir a solicitação de lista a um projeto.
  • Não é possível registrar lakes, zonas, recursos e entidades como entradas do Dataplex Universal Catalog. Isso significa que os metadados do Data Catalog anexados a lakes, zonas, recursos e entidades não são transferidos para o catálogo no Dataplex Universal Catalog. Além disso, ao usar a pesquisa do Dataplex Universal Catalog, não é possível pesquisar zonas e entidades nem filtrar por lakes e zonas. É possível usar lakes e zonas de forma independente do catálogo no Dataplex Universal Catalog.
  • A pesquisa de administrador, que garante o recall completo, não é compatível. Em vez disso, você pode exportar metadados para o Cloud Storage e consultá-los no BigQuery.

Para uma comparação dos recursos e recursos compatíveis com o Dataplex Universal Catalog e o Data Catalog, consulte a seção Dataplex Universal Catalog x Data Catalog neste documento.

Preços

O Dataplex Universal Catalog usa a SKU de armazenamento de metadados para cobrar pelo armazenamento de metadados. Para mais informações, consulte Preços do Dataplex Universal Catalog.

Não há cobranças para usar o seguinte:

  • Criar e gerenciar recursos do catálogo no Dataplex Universal Catalog
  • Chamadas da API Search para o Dataplex Universal Catalog
  • Consultas de pesquisa realizadas na página do Universal Catalog do Dataplex no console doGoogle Cloud

A seguir