O Dataplex Universal Catalog oferece uma plataforma central para armazenar, gerenciar e acessar seus metadados. Este documento descreve os recursos de gerenciamento de metadados do Dataplex Universal Catalog.
O Catálogo Universal do Dataplex oferece um inventário unificado de recursos Google Cloud e locais. Os metadados dos recursos Google Cloud são recuperados e armazenados automaticamente pelo Dataplex Universal Catalog. Também é possível trazer seus próprios metadados para recursos de terceiros no Dataplex Universal Catalog.
É possível enriquecer seu inventário com outros metadados comerciais e técnicos que capturam o contexto e o conhecimento sobre seus recursos. Você também pode pesquisar e descobrir seus dados em toda a organização e ativar a governança de dados nos seus recursos de dados.
Você pode definir o Catálogo Universal do Dataplex como sua experiência de catálogo padrão. Se você estiver usando o Data Catalog, faça a transição do conteúdo e do uso independente do Data Catalog para o Dataplex Universal Catalog. Para mais informações, consulte Fazer a transição do Data Catalog para o Dataplex Universal Catalog.
Casos de uso
Com o Dataplex Universal Catalog, é possível:
Descobrir e entender seus dados. O Dataplex Universal Catalog oferece visibilidade dos seus recursos de dados em toda a organização. Ele permite encontrar recursos relevantes para necessidades de consumo de dados. Ele fornece contexto para recursos de dados, o que ajuda você a entender a adequação deles às necessidades do consumidor de dados.
Ative a governança e o gerenciamento de dados. O Dataplex Universal Catalog fornece metadados que podem informar e impulsionar seus recursos de governança e gerenciamento de dados.
Mantenha um repositório extensível e abrangente para seus metadados. O Dataplex Universal Catalog armazena e fornece acesso a metadados que são coletados automaticamente dos seus recursos do Google Cloud . É possível integrar seus próprios metadados de sistemas que não são doGoogle Cloud . É possível enriquecer todos os metadados com outras anotações de metadados técnicos e comerciais.
Como funciona o gerenciamento de metadados no Dataplex Universal Catalog
Os recursos de gerenciamento de metadados no Dataplex Universal Catalog são baseados nos seguintes conceitos:
Entrada: uma entrada representa um recurso de dados. A maior parte dos metadados é descrita por aspectos em uma entrada. Isso é semelhante às entradas no Data Catalog. Para mais informações, consulte Entradas.
Aspecto: um aspecto é um conjunto de campos de metadados relacionados em uma entrada. Um aspecto pode ser interpretado como um elemento básico de uma entrada ou como metadados adicionais a ela. Isso é semelhante às tags no Data Catalog, mas os aspectos são armazenados em entradas e não como recursos independentes. Para mais informações, consulte Aspectos.
Tipo de aspecto: um tipo de aspecto é um modelo reutilizável para aspectos. Cada aspecto é uma instância de um tipo de aspecto. Isso é semelhante aos modelos de tag no Data Catalog. Para mais informações, consulte Tipos de aspectos.
Grupo de entradas: um grupo de entradas é um contêiner de entradas que serve como uma unidade de gerenciamento para elas. Por exemplo, use um grupo de entradas para configurar o controle de acesso do Identity and Access Management, a atribuição de projeto ou o local das entradas no grupo. Isso é semelhante aos grupos de entradas no Data Catalog. Para mais informações, consulte Grupos de entradas.
Tipo de entrada: um tipo de entrada é um modelo para criar entradas. Ele estabelece os elementos de metadados essenciais, descritos como uma lista de aspectos obrigatórios para entradas desse tipo. Para mais informações, consulte Tipos de entradas.
Figura 1. Entradas e grupos de entradas Figura 2. Tipos de aspecto e de entrada
Confira alguns casos de uso dos recursos de gerenciamento de metadados no Dataplex Universal Catalog:
- Como analista de dados ou de negócios, você pode pesquisar entradas em toda a organização e analisar os metadados associados a elas. Para mais informações, consulte Pesquisar recursos de dados.
- Como proprietário ou administrador de dados, você pode capturar mais metadados técnicos e comerciais anotando suas entradas com aspectos. Para mais informações, consulte Gerenciar aspectos e enriquecer metadados. Para gerenciar termos comerciais, consulte Gerenciar glossários.
- Como proprietário ou administrador de dados, você pode trazer consistência aos seus metadados definindo os padrões para anotação (usando tipos de aspectos), glossários de negócios (usando categorias e termos comerciais) e entradas personalizadas (usando tipos de entradas). Para mais informações, consulte Gerenciar aspectos e enriquecer metadados e Gerenciar glossários de negócios.
- Como engenheiro de dados, você pode ter um inventário unificado dos seus recursos, incluindo recursos do Google Cloud e de sistemas de terceiros. Os recursos doGoogle Cloud são coletados automaticamente pelo Dataplex Universal Catalog, e os recursos que não são doGoogle Cloud são coletados por você. Para mais informações, consulte Gerenciar entradas e ingerir fontes personalizadas.
Para usuários atuais do Data Catalog
Se você já estiver usando o Data Catalog, observe o seguinte:
- As entradas personalizadas, o contexto da visão geral, os glossários e os grupos de entrada criados no Data Catalog ficam disponíveis no Dataplex Universal Catalog.
- Como administrador, você pode disponibilizar simultaneamente o conteúdo de tags e modelos de tags do Data Catalog no Dataplex Universal Catalog. Para mais informações, consulte Fazer a transição do Data Catalog para o Dataplex Universal Catalog.
- Ao pesquisar recursos de dados no Dataplex Universal Catalog, os metadados criados diretamente nele e os metadados trazidos do Data Catalog para o Dataplex Universal Catalog são incluídos.
- Ao pesquisar recursos de dados no Data Catalog, somente os metadados criados nele são incluídos.
- As descrições de grupos de entrada no Data Catalog que excedem 1.024 caracteres são truncadas para 1.024 caracteres no Dataplex Universal Catalog.
- Como administrador, para disponibilizar no Dataplex Universal Catalog os glossários e links associados entre termos comerciais e colunas criados no Data Catalog, siga o processo de transição.
Para mais informações sobre como fazer a transição do conteúdo e do uso independente do Data Catalog para o Dataplex Universal Catalog, consulte Fazer a transição do Data Catalog para o Dataplex Universal Catalog.
Dataplex Universal Catalog x Data Catalog
O Dataplex Universal Catalog oferece recursos integrados para gerenciar seus metadados. O armazenamento de metadados e os métodos de API são integrados à API Dataplex.
Os principais recursos de gerenciamento de metadados no Dataplex Universal Catalog incluem o seguinte:
Metamodelo mais robusto
- Entradas digitadas. É possível aplicar padrões mínimos de metadados definindo o conteúdo de metadados necessário para entradas personalizadas.
- Metamodelo configurável pelo usuário para entradas personalizadas, que ajuda a tornar a ingestão personalizada mais robusta e melhora a consistência e a abrangência dos metadados personalizados.
- Suporte a uma variedade e complexidade maiores de metadados, incluindo estruturas de aninhamento, como listas, mapas e matrizes.
Melhoria na escalonabilidade, incluindo a capacidade de interagir com todos os metadados associados a uma entrada por meio de operações CRUD atômicas únicas e de buscar várias anotações de metadados associadas em respostas de pesquisa ou lista.
A tabela a seguir compara os recursos de gerenciamento de metadados do Dataplex Universal Catalog e do Data Catalog:
Recurso | Dataplex Universal Catalog | Data Catalog |
---|---|---|
Fontes Google Cloud compatíveis | Todas as fontes descritas na seção Fontes Google Cloud compatíveis deste documento. | Todas as fontes descritas em Entradas e grupos de entradas. |
Ingestão de fontes personalizadas | Ingestão em entradas personalizadas com estrutura controlada, definida por tipos de entrada. As entradas e os grupos de entrada personalizados do Data Catalog são disponibilizados no
Dataplex Universal Catalog no tipo de entrada | Ingestão em entradas personalizadas genéricas. |
Aprimoramento de metadados | O contexto dos metadados para entradas é capturado usando glossários, aspectos e tipos de aspectos comerciais. | O contexto dos metadados para entradas é capturado usando glossários de negócios, tags e modelos de tag. |
Pesquisar | A pesquisa é realizada nos seguintes itens:
Os resultados da pesquisa incluem apenas os recursos que pertencem à mesma organização e ao mesmo perímetro da VPC-SC que o projeto em que a pesquisa é realizada. Ao usar o console Google Cloud , esse é o projeto selecionado no console. Para pesquisar entradas, você precisa de pelo menos uma das seguintes funções do IAM no projeto usado para pesquisa: administrador do Dataplex Catalog, editor do Dataplex Catalog ou leitor do Dataplex Catalog. As permissões nos resultados da pesquisa são verificadas independentemente do projeto selecionado. |
A pesquisa é realizada nos seguintes itens:
|
Linhagem de dados |
A linhagem de dados recupera detalhes de entrada para nós de recursos usando a API Dataplex. O console Google Cloud mostra os aspectos anexados. |
O rastreamento de dados recupera detalhes de entrada para nós de recursos usando a API Data Catalog. |
Glossários de negócios |
Com o glossário de negócios, é possível criar uma taxonomia para termos comerciais e associá-los a recursos e colunas de dados. Use a pesquisa para descobrir recursos vinculados a um termo. |
Com o glossário de negócios, você pode criar uma taxonomia para termos comerciais e associá-los a colunas. Use a pesquisa para descobrir recursos vinculados a um termo. |
A tabela a seguir descreve como os recursos no Dataplex Universal Catalog correspondem aos recursos do Data Catalog:
Recurso do Dataplex Universal Catalog | Recurso do Data Catalog | Descrição |
---|---|---|
Tipo de aspecto (global ) |
Modelo de tag público | Os modelos de tag são recursos regionais. No entanto, é possível usá-las para criar
tags em várias regiões. Os modelos de tag correspondem aos tipos de aspecto global no Dataplex Universal Catalog. |
Aspecto opcional | Tag pública | As tags públicas no Data Catalog correspondem a aspectos opcionais no Dataplex Universal Catalog. |
Grupo de entradas | Grupo de entradas | Para fontes Google Cloud , os grupos de entrada do sistema, como @bigquery , são estabelecidos por projeto no Dataplex Universal Catalog. |
Aspectos obrigatórios da entrada personalizada | Entrada personalizada | O Data Catalog e o Dataplex Universal Catalog compartilham conceitos semelhantes para entradas personalizadas. As propriedades de entrada padrão são modeladas como aspectos obrigatórios no Dataplex Universal Catalog. |
Aspectos obrigatórios para entrada no sistema | Entrada do sistema (Google Cloud) | Os metadados que descrevem entidades integradas, como Schema para tabelas do BigQuery, são capturados nos aspectos obrigatórios dos tipos de aspectos definidos pelo sistema. |
Glossários de negócios | Glossários de negócios | Use glossários para criar uma taxonomia de termos comerciais, padronizando o contexto de negócios em toda a empresa. |
Para mais informações sobre os recursos disponíveis no Data Catalog, mas não compatíveis com o Dataplex Universal Catalog, consulte a seção Recursos de gerenciamento de metadados não compatíveis com o Dataplex Universal Catalog neste documento.
Fontes compatíveis
- Descoberta automática de dados do Cloud Storage
- Os metadados das seguintes fontes Google Cloud são ingeridos automaticamente
no Dataplex Universal Catalog:
- Trocas e listagens do BigQuery Sharing (antigo Analytics Hub)
- Conjuntos de dados, tabelas, modelos, rotinas, conexões e conjuntos de dados vinculados do BigQuery
- Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
- Repositórios do Dataform e recursos de código
- Instâncias, bancos de dados, esquemas, tabelas e visualizações do Cloud SQL. Consulte Como ativar a integração do Cloud SQL
- Serviços, bancos de dados e tabelas do Dataproc Metastore
- Tópicos do Pub/Sub
- Instâncias, bancos de dados, tabelas e visualizações do Spanner
- Modelos, conjuntos de dados, grupos de atributos, visualizações de atributos e instâncias de loja on-line da Vertex AI
Para importar metadados de uma fonte terceirizada para o Dataplex Universal Catalog, use um pipeline de conectividade gerenciada.
Restrições de projeto e local
Os recursos do catálogo no Dataplex Universal Catalog estão em vários projetos e locais. Considere as seguintes limitações:
Local:
- O local de uma entrada precisa corresponder ao local do tipo de entrada ou o tipo de entrada precisa ser
global
. - Um aspecto adicionado a uma entrada precisa ser baseado em um tipo de aspecto armazenado no mesmo local que a entrada ou o tipo de aspecto precisa ser
global
. - Um tipo de entrada precisa ser composto de tipos de aspectos armazenados no mesmo local que o tipo de entrada.
- O local de uma entrada precisa corresponder ao local do tipo de entrada ou o tipo de entrada precisa ser
Projeto:
- Se um tipo de entrada fizer referência a tipos personalizados de aspecto, eles precisarão estar no mesmo local e projeto do tipo de entrada.
Recursos de gerenciamento de metadados que não são compatíveis com o Dataplex Universal Catalog
Os seguintes recursos disponíveis no Data Catalog não são compatíveis com o Dataplex Universal Catalog:
- O conceito de aspectos e tipos de aspectos particulares (equivalentes a tags e modelos de tags particulares no Data Catalog) não existe no Dataplex Universal Catalog.
- A pesquisa de tags de política não é compatível com a pesquisa do Dataplex Universal Catalog. Consequentemente, os predicados
policytag
epolicytagid
não funcionam na pesquisa do Dataplex Universal Catalog. - Quando você traz grupos de entrada personalizados, entradas personalizadas, modelos de tags e tags do Data Catalog para o Dataplex Universal Catalog, as permissões originais não são transferidas. É preciso configurar explicitamente as permissões do IAM para os metadados copiados antes de usá-los.
- O suporte do Terraform para gerenciar aspectos e entradas personalizadas não está disponível. Em vez disso, gerencie programaticamente seus metadados personalizados em grande escala usando um pipeline de conectividade gerenciada ou os métodos da API de importação de metadados. O Terraform oferece suporte a grupos de entrada, tipos de entrada e tipos de aspecto. Consulte Provisionar recursos do Dataplex Universal Catalog com o Terraform.
- Não é possível enviar resultados da inspeção da Proteção de dados sensíveis diretamente para o catálogo no Dataplex Universal Catalog. Em vez disso, é possível enviar os resultados da inspeção da Proteção de Dados Sensíveis para o Data Catalog e, em seguida, fazer a transição dos resultados para o Dataplex Universal Catalog.
- Não é possível listar tipos de entrada e tipos de aspecto em projetos usando a API. É possível limitar a solicitação de lista a um projeto.
- Não é possível registrar lakes, zonas, recursos e entidades como entradas do Dataplex Universal Catalog. Isso significa que os metadados do Data Catalog anexados a lakes, zonas, recursos e entidades não são transferidos para o catálogo no Dataplex Universal Catalog. Além disso, ao usar a pesquisa do Dataplex Universal Catalog, não é possível pesquisar zonas e entidades nem filtrar por data lakes e zonas. É possível usar lakes e zonas de forma independente do catálogo no Dataplex Universal Catalog.
- A pesquisa de administrador, que garante o recall completo, não é compatível. Em vez disso, você pode exportar metadados para o Cloud Storage e consultá-los no BigQuery.
Para uma comparação dos recursos e recursos compatíveis com o Dataplex Universal Catalog e o Data Catalog, consulte a seção Dataplex Universal Catalog x Data Catalog neste documento.
Preços
O Dataplex Universal Catalog usa a SKU de armazenamento de metadados para cobrar pelo armazenamento de metadados. Para mais informações, consulte Preços do Dataplex Universal Catalog.
Não há cobranças para usar o seguinte:
- Criar e gerenciar recursos do catálogo no Dataplex Universal Catalog
- Chamadas da API Search para o Dataplex Universal Catalog
- Consultas de pesquisa realizadas na página do Dataplex Universal Catalog no consoleGoogle Cloud
A seguir
- Saiba como pesquisar recursos no Dataplex Universal Catalog.
- Saiba como gerenciar recursos e enriquecer metadados.
- Saiba como gerenciar entradas e ingerir fontes personalizadas.
- Saiba mais sobre a transição do Data Catalog para o Catálogo Universal do Dataplex.
- Saiba mais sobre como fazer a transição de glossários para o Dataplex Universal Catalog.