Este documento descreve os recursos de gerenciamento do catálogo de dados do catálogo universal. O catálogo universal oferece uma plataforma para armazenar, gerenciar e acessar seus metadados.
O catálogo universal oferece um inventário unificado de Google Cloud e recursos locais. O catálogo universal recupera automaticamente metadados de recursos Google Cloud , e você transfere metadados de recursos de terceiros para o catálogo universal.
O catálogo universal permite que você aprimore seu inventário com outros metadados técnicos e comerciais para capturar o contexto e o conhecimento sobre seus recursos. Com o catálogo universal, você pode pesquisar e descobrir seus dados em toda a organização e ativar a governança de dados sobre seus recursos de dados.
Você pode definir a experiência de catálogo padrão como catálogo universal. Se você estiver usando o Data Catalog, faça a transição do conteúdo e do uso do Data Catalog para o catálogo universal. Para mais informações, consulte Transição do Data Catalog para o catálogo universal do BigQuery.
Casos de uso
Você pode usar o catálogo universal para:
Descubra e entenda seus dados. O catálogo universal oferece visibilidade sobre os recursos de dados em toda a organização. Ele permite encontrar recursos relevantes para necessidades de consumo de dados. Ele fornece contexto para recursos de dados, o que ajuda a entender a adequação desses recursos para as necessidades do consumidor de dados.
Ative a governança e o gerenciamento de dados. O catálogo universal fornece metadados que podem informar e aprimorar seus recursos de governança e gerenciamento de dados.
Mantenha um repositório extensível e abrangente para seus metadados. O catálogo universal armazena e oferece acesso a metadados que são coletados automaticamente dos seus Google Cloud recursos. É possível integrar seus próprios metadados de sistemas nãoGoogle Cloud . É possível enriquecer todos os metadados com outras anotações de metadados comerciais e técnicos.
Como funciona o gerenciamento de catálogo de dados no catálogo universal
Os recursos de gerenciamento do catálogo de dados no catálogo universal são baseados nos seguintes conceitos:
Entrada: representa um recurso de dados. A maioria dos metadados é descrita por aspectos em uma entrada. Isso é semelhante às entradas no Data Catalog. Para mais informações, consulte Entradas.
Aspecto: um conjunto de campos de metadados relacionados em uma entrada. Um aspecto pode ser interpretado como um elemento básico de uma entrada ou metadados adicionais a ela. Isso é semelhante às tags no Data Catalog, mas os aspectos são armazenados nas entradas e não como recursos independentes. Para mais informações, consulte Aspectos.
Tipo de aspecto: é um modelo reutilizável para aspectos. Cada aspecto é uma instância de um tipo de aspecto. Isso é semelhante aos modelos de tag no Data Catalog. Para mais informações, consulte Tipos de aspecto.
Grupo de entrada: um contêiner de entradas que serve como uma unidade de gerenciamento delas. Por exemplo, use um grupo de entradas para configurar o controle de acesso, a atribuição de projeto ou o local do Identity and Access Management para as entradas no grupo de entradas. Isso é semelhante aos grupos de entradas no Data Catalog. Para mais informações, consulte Grupos de entradas.
Tipo de entrada: é um modelo para criar entradas. Ele estabelece os elementos de metadados essenciais, descritos como uma lista de aspectos obrigatórios para entradas desse tipo. Para mais informações, consulte Tipos de entrada.
Figura 1. Entradas e grupos de entradas Figura 2. Tipos de aspecto e de entrada
Confira a seguir alguns dos casos de uso do catálogo universal:
- Como analista de dados ou de negócios, você pode pesquisar entradas em toda a organização e analisar os metadados associados a elas. Para mais informações, consulte Pesquisar recursos de dados.
- Como proprietário ou administrador de dados, você pode capturar outros metadados técnicos e comerciais anotando suas entradas com aspectos. Para mais informações, consulte Gerenciar aspectos e enriquecer metadados.
- Como proprietário ou administrador de dados, você pode trazer consistência aos seus metadados definindo os padrões de anotação (usando tipos de aspecto) e entradas personalizadas (usando tipos de entrada). Para mais informações, consulte Gerenciar aspectos e enriquecer metadados.
- Como engenheiro de dados, você pode ter um inventário unificado para seus recursos, incluindo recursos Google Cloud e recursos de sistemas de terceiros. Os recursosGoogle Cloud são coletados automaticamente pelo catálogo universal, e os nãoGoogle Cloud são coletados por você. Para mais informações, consulte Gerenciar entradas e processar origens personalizadas.
Para usuários atuais do Data Catalog
Se você já usa o Data Catalog, observe o seguinte:
- As entradas personalizadas, o contexto de visão geral e os grupos de entrada que você criou no Data Catalog são disponibilizados no catálogo universal.
- Como administrador, você pode disponibilizar o conteúdo de modelos de tag e tags do Data Catalog simultaneamente no catálogo universal. Para mais informações, consulte Fazer a transição do Data Catalog para o catálogo universal do BigQuery.
- Quando você pesquisa recursos de dados no catálogo universal, os metadados criados diretamente no catálogo universal e os que foram transferidos do Data Catalog para o catálogo universal são incluídos.
- Quando você pesquisa recursos de dados no Data Catalog, apenas os metadados criados nele são incluídos.
- As descrições de grupos de entradas no Data Catalog que excedem 1.024 caracteres são truncadas para 1.024 caracteres no catálogo universal.
Para mais informações sobre como fazer a transição do conteúdo e do uso do Data Catalog para o catálogo universal, consulte Fazer a transição do Data Catalog para o catálogo universal do BigQuery.
Catálogo universal x Data Catalog
O catálogo universal oferece um recurso para gerenciar seus metadados no Dataplex. Ele vem com um armazenamento de metadados separado e um novo conjunto de métodos de API integrados à API Dataplex.
Os principais recursos do catálogo de dados no catálogo universal incluem:
Metamodelo mais robusto
- Entradas digitadas. É possível aplicar padrões mínimos de metadados definindo o conteúdo de metadados necessário para entradas personalizadas.
- Metamodelo configurável pelo usuário para entradas personalizadas, que ajuda a tornar a ingestão personalizada mais robusta e melhora a consistência e a compreensão dos metadados personalizados.
- Suporte a uma variedade e complexidade mais ampla de metadados, incluindo suporte para estruturas aninhadas, como listas, mapas e matrizes.
Melhoria na capacidade de escalonamento, incluindo a capacidade de interagir com todos os metadados associados a uma entrada por operações atômicas CRUD e a capacidade de buscar várias anotações de metadados associadas a respostas de pesquisa ou de lista.
A tabela a seguir compara os recursos do catálogo universal e do Data Catalog:
Recurso | Catálogo universal | Data Catalog |
---|---|---|
Origens Google Cloud compatíveis | Todas as fontes, conforme descrito na seção Fontes Google Cloud com suporte deste documento. | Todas as fontes descritas em Entradas e grupos de entradas. |
Transferência de origens personalizadas | Ingestão em entradas personalizadas com estrutura governada, definida por tipos de entrada. As entradas e os grupos de entrada personalizados do Data Catalog são disponibilizados no catálogo universal no tipo de entrada | Ingestão em entradas personalizadas genéricas. |
Enriquecimento de metadados | O contexto de metadados das entradas é capturado usando aspectos e tipos de aspectos. | O contexto de metadados das entradas é capturado usando tags e modelos de tag. |
Pesquisar | A pesquisa é realizada nos seguintes itens:
Os resultados da pesquisa incluem apenas os recursos que pertencem à mesma organização e ao mesmo perímetro do VPC-SC do projeto em que a pesquisa é realizada. Ao usar o console do Google Cloud, esse é o projeto selecionado no console. Para pesquisar entradas, você precisa de pelo menos um dos papéis do IAM para o catálogo universal (Dataplex Catalog) no projeto usado para pesquisa. As permissões nos resultados da pesquisa são verificadas independentemente do projeto selecionado. |
A pesquisa é realizada nos seguintes itens:
|
Linhagem de dados |
A linhagem de dados recupera detalhes de entrada para nós de recursos usando a API Dataplex. O console do Google Cloud mostra os aspectos anexados. |
A linhagem de dados recupera detalhes de entrada para nós de recursos usando a API Data Catalog. O console do Google Cloud mostra as tags anexadas e os termos do glossário. |
A tabela a seguir descreve como os recursos do catálogo universal correspondem aos recursos do Data Catalog:
Recurso do catálogo universal | Recurso do Data Catalog | Descrição |
---|---|---|
Tipo de aspecto (global ) |
Modelo de tag pública | Os modelos de tags são recursos regionais. No entanto, é possível usá-las para criar
tags em várias regiões. Os modelos de tag correspondem aos tipos de aspecto global no catálogo universal. |
Aspecto opcional | Tag pública | As tags públicas no Data Catalog correspondem a aspectos opcionais no catálogo universal. |
Grupo de entradas | Grupo de entradas | Para Google Cloud s, os grupos de entrada do sistema, como @bigquery ,
são estabelecidos por projeto no catálogo universal. |
Aspectos obrigatórios da entrada personalizada | Entrada personalizada | O Data Catalog e o catálogo universal compartilham conceitos semelhantes para entradas personalizadas. As propriedades de entrada padrão são modeladas como aspectos obrigatórios no catálogo universal. |
Aspectos obrigatórios para entrada no sistema | Entrada do sistema (Google Cloud) | Os metadados que descrevem entidades integradas, como Schema para tabelas do BigQuery, são capturados em aspectos obrigatórios dos tipos de aspecto definidos pelo sistema. |
Para mais informações sobre os recursos disponíveis no Data Catalog, mas que não são compatíveis com o catálogo universal, consulte a seção Recursos que não são compatíveis com o catálogo universal neste documento.
Origens compatíveis
Os metadados das seguintes fontes de Google Cloud são ingeridos automaticamente no catálogo universal:
- Trocas e listagens do compartilhamento do BigQuery (antigo Analytics Hub)
- Conjuntos de dados, tabelas, modelos, rotinas, conexões e conjuntos de dados vinculados do BigQuery
- Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
- Repositórios do Dataform e recursos de código
- Instâncias, bancos de dados, esquemas, tabelas e visualizações do Cloud SQL: consulte Ativar a integração do Cloud SQL
- Serviços, bancos de dados e tabelas do Dataproc Metastore
- Tópicos do Pub/Sub
- Instâncias, bancos de dados, tabelas e visualizações do Spanner
- Modelos, conjuntos de recursos, visualizações de recursos e instâncias de armazenamento on-line da Vertex AI
Para importar metadados de uma fonte externa para o catálogo universal, use um pipeline de conectividade gerenciada.
Restrições de projeto e local
Os recursos do catálogo universal estão em vários projetos e locais. Considere as seguintes limitações:
Local:
- O local de uma entrada precisa corresponder ao local do tipo de entrada
ou o tipo de entrada precisa ser
global
. - Um aspecto adicionado a uma entrada precisa ser baseado em um tipo de aspecto armazenado
no mesmo local que a entrada ou o tipo de aspecto precisa ser
global
. - Um tipo de entrada precisa ser composto de tipos de aspecto armazenados no mesmo local que o tipo de entrada.
- O local de uma entrada precisa corresponder ao local do tipo de entrada
ou o tipo de entrada precisa ser
Projeto:
- Se um tipo de entrada faz referência a tipos personalizados de aspecto, eles precisam estar no mesmo local e projeto que o tipo de entrada.
Recursos que não são compatíveis com o catálogo universal
Os recursos a seguir, disponíveis no Data Catalog, não têm suporte no catálogo universal:
- O conceito de aspectos e tipos de aspectos particulares (contrapartes de tags e modelos de tags particulares no Data Catalog) não existe no catálogo universal.
- A pesquisa de tags de política não é compatível com a pesquisa
do catálogo universal. Consequentemente, os predicados
policytag
epolicytagid
não funcionam na pesquisa do catálogo universal. - Quando você transfere grupos de entrada personalizados, entradas personalizadas, modelos de tags e tags do Data Catalog para o catálogo universal, as permissões originais não são transferidas. É necessário configurar explicitamente as permissões do IAM para os metadados copiados antes de usá-los.
- O suporte do Terraform para gerenciamento de aspectos e entradas personalizadas não está disponível. Em vez disso, é possível gerenciar seus metadados personalizados em escala de forma programática usando um pipeline de conectividade gerenciada ou os métodos da API de importação de metadados. O suporte do Terraform para grupos, tipos de entrada e tipos de aspecto está disponível. Consulte Provisionar recursos do Dataplex com o Terraform.
- Não é possível enviar resultados de inspeção da Proteção de dados sensíveis diretamente para o catálogo universal. Em vez disso, você pode enviar os resultados da inspeção de Proteção de dados sensíveis para o Data Catalog e, em seguida, fazer a transição dos resultados para o catálogo universal.
- Não é possível listar tipos de entrada e de aspecto em projetos usando a API. É possível restringir a solicitação de lista a apenas um projeto.
- Não é possível anexar termos do glossário de negócios (pré-lançamento) às colunas das entradas do catálogo universal.
- Não é possível registrar lagos, zonas, recursos e entidades do Dataplex como entradas no catálogo universal. Isso significa que os metadados anexados a lagos, zonas, recursos e entidades não são transferidos para o catálogo universal. Além disso, ao usar a pesquisa de catálogo universal, não é possível pesquisar zonas e entidades nem filtrar por lagos e zonas. É possível usar lagos e zonas de forma independente do catálogo universal.
- A pesquisa de administrador, que garante a recuperação completa, não é compatível.
Para comparar os recursos e recursos compatíveis com o catálogo universal e o Data Catalog, consulte a seção Universal catalog versus Data Catalog neste documento.
Preços
O Dataplex usa o SKU de armazenamento de metadados para cobrar pelo armazenamento de metadados. Para mais informações, consulte Preços do Dataplex.
Não há cobranças para usar os seguintes recursos:
- Como criar e gerenciar recursos do catálogo universal
- Pesquisar chamadas de API para catálogo universal
- Consultas de pesquisa realizadas na página do catálogo universal no console do Google Cloud
A seguir
- Saiba como pesquisar recursos no catálogo universal.
- Saiba como gerenciar recursos e enriquecer metadados.
- Saiba como gerenciar entradas e importar fontes personalizadas.
- Saiba mais sobre a transição do Data Catalog para o catálogo universal do BigQuery.