Visão geral do catálogo universal do Dataplex

O Dataplex Universal Catalog é uma solução de governança unificada e inteligente para recursos de dados e IA no Google Cloud. Com o Dataplex Universal Catalog, é possível usar a IA para simplificar consultas de dados, controle de qualidade e insights de negócios.

O Dataplex Universal Catalog realiza a governança em grande escala. Por exemplo, uma empresa de varejo global que gera grandes quantidades de dados de vendas, inventário e clientes armazenados no Cloud Storage, Spanner e Pub/Sub. Com os dados distribuídos entre sistemas, gerenciar a governança, garantir a qualidade e manter a conformidade é complexo e demorado. O Dataplex Universal Catalog simplifica esse processo ao fornecer uma visão centralizada para descobrir, criar perfil, validar, rastrear a linhagem e controlar o acesso aos recursos de dados organizacionais.

Por que usar o Dataplex Universal Catalog?

O Dataplex Universal Catalog controla os dados com os seguintes recursos:

  • Catalogação de metadados. Recupere metadados de recursos Google Cloud (no BigQuery, Cloud SQL, Spanner, Vertex AI, Pub/Sub, Dataform, Dataproc Metastore) e recursos de terceiros que você traz para o Dataplex Universal Catalog para ter um snapshot dos seus recursos de dados.
  • Descoberta de dados. Faça uma verificação de dados estruturados e não estruturados em buckets do Cloud Storage para extrair e catalogar os metadados.
  • Insights de dados. Use a IA para gerar perguntas em linguagem natural sobre seus dados, descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.
  • Criação de perfil de dados. Identifique características comuns dos dados de coluna nas tabelas do BigQuery, por exemplo, valores de dados típicos, distribuição de dados e contagens nulas, que podem informar a classificação de dados e o controle de qualidade.
  • Qualidade dos dados. Defina e meça a qualidade dos dados nas tabelas do BigQuery validando os dados de acordo com as políticas organizacionais e registrando alertas se eles não atenderem aos critérios de qualidade.
  • Glossário empresarial. Gerencie a terminologia e as definições relacionadas aos negócios em toda a organização e anexe termos às colunas da tabela para promover uma compreensão consistente do uso de dados.
  • Linhagem de dados. Acompanhe como os dados se movimentam nos sistemas: de onde vêm, para onde vão e quais transformações são aplicadas a eles.

O Dataplex Universal Catalog oferece suporte a um ciclo de vida de dados completo, desde a descoberta distribuída até insights de negócios. Os recursos de governança também estão disponíveis no BigQuery.

Casos de uso

Com o Dataplex Universal Catalog, é possível:

  • Descobrir e entender seus dados. O Dataplex Universal Catalog oferece visibilidade dos seus recursos de dados em toda a organização. Ele permite encontrar recursos relevantes para necessidades de consumo de dados. Ele fornece contexto para recursos de dados, o que ajuda você a entender a adequação deles às necessidades do consumidor de dados.

  • Ative a governança e o gerenciamento de dados. O Dataplex Universal Catalog fornece metadados que podem informar e impulsionar seus recursos de governança e gerenciamento de dados.

  • Mantenha um repositório extensível e abrangente para seus metadados. O Dataplex Universal Catalog armazena e fornece acesso a metadados que são coletados automaticamente dos seus recursos do Google Cloud . É possível integrar seus próprios metadados de sistemas que não são doGoogle Cloud . É possível enriquecer todos os metadados com outras anotações de metadados técnicos e comerciais.

A seguir