O Dataplex Universal Catalog oferece uma plataforma central para armazenar, gerenciar e acessar seus metadados. Este documento descreve os recursos de gerenciamento de metadados do Dataplex Universal Catalog.
O Dataplex Universal Catalog oferece um inventário unificado de recursos Google Cloud e locais. Os metadados dos recursos Google Cloud são recuperados e armazenados automaticamente pelo Dataplex Universal Catalog. Também é possível trazer seus próprios metadados de recursos de terceiros para o Dataplex Universal Catalog.
É possível enriquecer seu inventário com metadados técnicos e comerciais adicionais que capturam o contexto e o conhecimento sobre seus recursos. Você também pode pesquisar e descobrir seus dados em toda a organização e ativar a governança de dados nos seus recursos.
Você pode definir o Catálogo Universal do Dataplex como sua experiência de catálogo padrão. Se você estiver usando o Data Catalog, faça a transição do conteúdo e do uso independente do Data Catalog para o Dataplex Universal Catalog. Para mais informações, consulte Fazer a transição do Data Catalog para o Dataplex Universal Catalog.
Como funciona o gerenciamento de metadados
Os recursos de gerenciamento de metadados no Dataplex Universal Catalog são baseados nos seguintes conceitos:
- Entrada
Uma entrada representa um recurso de dados. Isso é semelhante às entradas no Data Catalog.
Exemplo: uma tabela do BigQuery chamada
test-project.sales_data.customer_orders
é representada como uma entrada.Uma coluna de uma entrada representa uma subseção específica de um recurso de dados, como uma única coluna em uma tabela do BigQuery ou um campo em um arquivo JSON. Com as colunas, é possível anexar metadados a campos individuais em uma entrada, não apenas à entrada como um todo. As colunas não são definidas diretamente. Elas são criadas quando você anexa um aspecto do tipo
schema
a uma entrada. As colunas também são chamadas de caminhos.Exemplo: para descrever o campo
email_address
na entradacustomer_orders
como contendo informações de identificação pessoal (PII), anexe um aspecto à colunaemail_address
.Para mais informações sobre entradas, consulte Entradas.
- Aspecto
Um aspecto é um conjunto de campos de metadados relacionados. É possível anexar um aspecto a uma entrada para descrevê-la como um todo. A maior parte dos metadados é descrita por aspectos em uma entrada. Isso é semelhante às tags no Data Catalog. No entanto, os aspectos são armazenados em entradas, não como recursos independentes.
Exemplo: para definir todas as colunas da entrada
customer_orders
, comoorder_id
,order_date
eemail_address
, anexe um aspectoschema
à entradacustomer_orders
. Para especificar que a colunaemail_address
contém um endereço de e-mail, anexe um aspectoschema
a ela.email_address
Para mais informações sobre aspectos, consulte Aspectos.
- Tipo de entrada
Um tipo de entrada é um modelo para criar entradas. Ele estabelece os elementos essenciais de metadados, descritos como uma lista de aspectos obrigatórios para entradas desse tipo. Um tipo de entrada especifica quais tipos de aspecto são obrigatórios para um recurso de dados específico.
Exemplo: para garantir que todas as entradas tenham os metadados necessários, crie um tipo de entrada chamado
StandardOperationalTable
que exija um aspectoOwnerInfo
para ser anexado a qualquer nova entrada desse tipo.Para mais informações sobre os tipos de entradas, consulte Tipos de entradas.
- Tipo de aspecto
Um tipo de aspecto é um modelo reutilizável para aspectos. Cada aspecto é uma instância de um tipo de aspecto. Isso é semelhante aos modelos de tag no Data Catalog.
Por exemplo, para definir um modelo reutilizável de dados de contato, é possível definir um tipo de aspecto chamado
ContactInfo
com campos paraowner_name
,email
esupport_team
. Em seguida, você pode criar aspectosContactInfo
com base nesse modelo e anexá-los a entradas ou colunas.Para mais informações sobre os tipos de aspectos, consulte Tipos de aspectos.
- Grupo de entradas
Um grupo de entrada é um contêiner de entradas que serve como uma unidade de gerenciamento para elas. Por exemplo, use um grupo de entradas para configurar o controle de acesso do Identity and Access Management, a atribuição do projeto ou o local das entradas no grupo. Isso é semelhante aos grupos de entradas no Data Catalog.
Exemplo: uma equipe financeira quer gerenciar as permissões de todas as tabelas de uma vez. Eles podem criar um grupo de entradas chamado
production_finance_data
e incluir as entradas das tabelascustomer_orders
,quarterly_revenue
eemployee_salaries
nele.Para mais informações sobre grupos de entradas, consulte Grupos de entradas.
Figura 1. Entradas e grupos de entradas Figura 2. Tipos de aspecto e tipos de entrada
Dataplex Universal Catalog x Data Catalog
O Dataplex Universal Catalog oferece recursos integrados para gerenciar seus metadados. O armazenamento de metadados e os métodos de API são integrados à API Dataplex.
Os principais recursos de gerenciamento de metadados no Dataplex Universal Catalog incluem o seguinte:
Metamodelo mais robusto
- Entradas digitadas. É possível aplicar padrões mínimos de metadados definindo o conteúdo de metadados necessário para entradas personalizadas.
- Metamodelo configurável pelo usuário para entradas personalizadas, que ajuda a tornar a ingestão personalizada mais robusta e melhora a consistência e a abrangência dos metadados personalizados.
- Suporte a uma variedade e complexidade maiores de metadados, incluindo estruturas de aninhamento, como listas, mapas e matrizes.
Melhoria na escalonabilidade, incluindo a capacidade de interagir com todos os metadados associados a uma entrada por meio de operações CRUD atômicas únicas e de buscar várias anotações de metadados associadas em respostas de pesquisa ou lista.
A tabela a seguir compara os recursos de gerenciamento de metadados do Dataplex Universal Catalog e do Data Catalog:
Recurso | Dataplex Universal Catalog | Data Catalog |
---|---|---|
Fontes Google Cloud compatíveis | Todas as fontes descritas na seção Fontes Google Cloud compatíveis deste documento. | Todas as fontes descritas em Entradas e grupos de entradas. |
Ingestão de fontes personalizadas | Ingestão em entradas personalizadas com estrutura controlada, definida por tipos de entrada. As entradas e os grupos de entrada personalizados do Data Catalog ficam disponíveis no
Dataplex Universal Catalog no tipo de entrada | Ingestão em entradas personalizadas genéricas. |
Aprimoramento de metadados | O contexto dos metadados para entradas é capturado usando glossários, aspectos e tipos de aspectos comerciais. | O contexto dos metadados para entradas é capturado usando glossários de negócios, tags e modelos de tag. |
Pesquisar | A pesquisa é realizada nos seguintes itens:
Os resultados da pesquisa incluem apenas os recursos que pertencem à mesma organização e ao mesmo perímetro da VPC-SC que o projeto em que a pesquisa é realizada. Ao usar o console Google Cloud , esse é o projeto selecionado no console. Para pesquisar entradas, você precisa de pelo menos uma das seguintes funções do IAM no projeto usado para pesquisa: administrador do Dataplex Catalog, editor do Dataplex Catalog ou leitor do Dataplex Catalog. As permissões nos resultados da pesquisa são verificadas independentemente do projeto selecionado. |
A pesquisa é realizada nos seguintes itens:
|
Linhagem de dados |
A linhagem de dados recupera detalhes de entrada para nós de recursos usando a API Dataplex. O console Google Cloud mostra os aspectos anexados. |
A linhagem de dados recupera detalhes de entrada para nós de recursos usando a API Data Catalog. |
Glossários de negócios |
Com o glossário de negócios, é possível criar uma taxonomia para termos comerciais e associá-los a recursos e colunas de dados. Use a pesquisa para descobrir recursos vinculados a um termo. |
Com o glossário de negócios, você pode criar uma taxonomia para termos comerciais e associá-los a colunas. Use a pesquisa para descobrir recursos vinculados a um termo. |
A tabela a seguir descreve como os recursos no Dataplex Universal Catalog correspondem aos recursos do Data Catalog:
Recurso do Dataplex Universal Catalog | Recurso do Data Catalog | Descrição |
---|---|---|
Tipo de aspecto (global ) |
Modelo de tag pública | Os modelos de tag são recursos regionais. No entanto, é possível usá-las para criar
tags em várias regiões. Os modelos de tag correspondem aos tipos de aspecto global no Dataplex Universal Catalog. |
Aspecto opcional | Tag pública | As tags públicas no Data Catalog correspondem a aspectos opcionais no Dataplex Universal Catalog. |
Grupo de entradas | Grupo de entradas | Para fontes do Google Cloud , os grupos de entrada do sistema, como @bigquery , são estabelecidos por projeto no Dataplex Universal Catalog. |
Aspectos obrigatórios da entrada personalizada | Entrada personalizada | O Data Catalog e o Dataplex Universal Catalog compartilham conceitos semelhantes para entradas personalizadas. As propriedades de entrada padrão são modeladas como aspectos obrigatórios no Dataplex Universal Catalog. |
Aspectos obrigatórios para entrada no sistema | Entrada do sistema (Google Cloud) | Os metadados que descrevem entidades integradas, como Schema para tabelas do BigQuery, são capturados nos aspectos obrigatórios dos tipos de aspectos definidos pelo sistema. |
Glossários de negócios | Glossários de negócios | Use glossários para criar uma taxonomia de termos comerciais, padronizando o contexto de negócios em toda a empresa. |
Para mais informações sobre os recursos disponíveis no Data Catalog, mas não compatíveis com o Dataplex Universal Catalog, consulte a seção Recursos de gerenciamento de metadados não compatíveis com o Dataplex Universal Catalog neste documento.
Para usuários atuais do Data Catalog
Se você já estiver usando o Data Catalog, observe o seguinte:
- As entradas personalizadas, o contexto da visão geral, os glossários e os grupos de entrada criados no Data Catalog ficam disponíveis no Dataplex Universal Catalog.
- Como administrador, você pode disponibilizar simultaneamente o conteúdo de tags e modelos de tags do Data Catalog no Dataplex Universal Catalog. Para mais informações, consulte Fazer a transição do Data Catalog para o Dataplex Universal Catalog.
- Ao pesquisar recursos de dados no Dataplex Universal Catalog, os metadados criados diretamente nele e os metadados transferidos do Data Catalog para o Dataplex Universal Catalog são incluídos.
- Ao pesquisar recursos de dados no Data Catalog, somente os metadados criados nele são incluídos.
- As descrições de grupos de entrada no Data Catalog que excedem 1.024 caracteres são truncadas para 1.024 caracteres no Dataplex Universal Catalog.
- Como administrador, para disponibilizar no Dataplex Universal Catalog os glossários e links associados entre termos comerciais e colunas criados no Data Catalog, siga o processo de transição.
Para mais informações sobre como fazer a transição do conteúdo e do uso independente do Data Catalog para o Dataplex Universal Catalog, consulte Fazer a transição do Data Catalog para o Dataplex Universal Catalog.
Fontes compatíveis
- Descoberta automática de dados do Cloud Storage
- Os metadados das seguintes fontes do Google Cloud são ingeridos automaticamente no Dataplex Universal Catalog:
- Trocas e listagens do BigQuery Sharing (antigo Analytics Hub)
- Conjuntos de dados, tabelas, modelos, rotinas, conexões e conjuntos de dados vinculados do BigQuery
- Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
- Repositórios do Dataform e recursos de código
- Instâncias, bancos de dados, esquemas, tabelas e visualizações do Cloud SQL. Consulte Como ativar a integração do Cloud SQL
- Serviços, bancos de dados e tabelas do Dataproc Metastore
- Tópicos do Pub/Sub
- Instâncias, bancos de dados, tabelas e visualizações do Spanner
- Modelos, conjuntos de dados, grupos de atributos, visualizações de atributos e instâncias de loja on-line da Vertex AI
Para importar metadados de uma fonte terceirizada para o Dataplex Universal Catalog, use um pipeline de conectividade gerenciada.
Restrições de projeto e local
Os recursos do catálogo no Dataplex Universal Catalog estão em vários projetos e locais. Considere as seguintes limitações:
Local:
- O local de uma entrada precisa corresponder ao local do tipo de entrada ou o tipo de entrada precisa ser
global
. - Um aspecto adicionado a uma entrada precisa ser baseado em um tipo de aspecto armazenado no mesmo local que a entrada ou o tipo de aspecto precisa ser
global
. - Um tipo de entrada precisa ser composto de tipos de aspectos armazenados no mesmo local que o tipo de entrada.
- O local de uma entrada precisa corresponder ao local do tipo de entrada ou o tipo de entrada precisa ser
Projeto:
- Se um tipo de entrada fizer referência a tipos personalizados de aspecto, eles precisarão estar no mesmo local e projeto do tipo de entrada.
Recursos de gerenciamento de metadados que não são compatíveis com o Dataplex Universal Catalog
Os seguintes recursos disponíveis no Data Catalog não são compatíveis com o Dataplex Universal Catalog:
- O conceito de aspectos e tipos de aspectos particulares (equivalentes a tags e modelos de tags particulares no Data Catalog) não existe no Dataplex Universal Catalog.
- A pesquisa de tags de política não é compatível com a pesquisa do Dataplex Universal Catalog. Consequentemente, os predicados
policytag
epolicytagid
não funcionam na pesquisa do Dataplex Universal Catalog. - Quando você traz grupos de entrada personalizados, entradas personalizadas, modelos de tags e tags do Data Catalog para o Dataplex Universal Catalog, as permissões originais não são transferidas. É preciso configurar explicitamente as permissões do IAM para os metadados copiados antes de usá-los.
- O suporte do Terraform para gerenciar aspectos e entradas personalizadas não está disponível. Em vez disso, gerencie programaticamente seus metadados personalizados em grande escala usando um pipeline de conectividade gerenciada ou os métodos da API de importação de metadados. O Terraform oferece suporte a grupos de entrada, tipos de entrada e tipos de aspecto. Consulte Provisionar recursos do Dataplex Universal Catalog com o Terraform.
- Não é possível enviar resultados da inspeção da Proteção de dados sensíveis diretamente para o catálogo no Dataplex Universal Catalog. Em vez disso, é possível enviar os resultados da inspeção da Proteção de Dados Sensíveis para o Data Catalog e, em seguida, fazer a transição dos resultados para o Dataplex Universal Catalog.
- Não é possível listar tipos de entrada e tipos de aspecto em projetos usando a API. É possível restringir a solicitação de lista a um projeto.
- Não é possível registrar lakes, zonas, recursos e entidades como entradas do Dataplex Universal Catalog. Isso significa que os metadados do Data Catalog anexados a lakes, zonas, recursos e entidades não são transferidos para o catálogo no Dataplex Universal Catalog. Além disso, ao usar a pesquisa do Dataplex Universal Catalog, não é possível pesquisar zonas e entidades nem filtrar por lakes e zonas. É possível usar lakes e zonas de forma independente do catálogo no Dataplex Universal Catalog.
- A pesquisa de administrador, que garante o recall completo, não é compatível. Em vez disso, você pode exportar metadados para o Cloud Storage e consultá-los no BigQuery.
Para uma comparação dos recursos e recursos compatíveis com o Dataplex Universal Catalog e o Data Catalog, consulte a seção Dataplex Universal Catalog x Data Catalog neste documento.
Preços
O Dataplex Universal Catalog usa a SKU de armazenamento de metadados para cobrar pelo armazenamento de metadados. Para mais informações, consulte Preços do Dataplex Universal Catalog.
Não há cobranças para usar o seguinte:
- Criar e gerenciar recursos do catálogo no Dataplex Universal Catalog
- Chamadas da API Search para o Dataplex Universal Catalog
- Consultas de pesquisa realizadas na página do Universal Catalog do Dataplex no console doGoogle Cloud
A seguir
- Saiba como pesquisar recursos no Dataplex Universal Catalog.
- Saiba como gerenciar recursos e enriquecer metadados.
- Saiba como gerenciar entradas e ingerir fontes personalizadas.
- Saiba mais sobre a transição do Data Catalog para o Dataplex Universal Catalog.
- Saiba mais sobre como fazer a transição de glossários para o Dataplex Universal Catalog.