Visão geral do catálogo universal do Dataplex

O Dataplex Universal Catalog é uma solução de governança unificada e inteligente para recursos de dados e IA no Google Cloud. Com o Dataplex Universal Catalog, é possível usar a IA para simplificar consultas de dados, controle de qualidade e insights de negócios.

O Dataplex Universal Catalog realiza a governança em grande escala. Por exemplo, uma empresa de varejo global que gera grandes quantidades de dados de vendas, inventário e clientes armazenados no Cloud Storage, Spanner e Pub/Sub. Com os dados distribuídos entre sistemas, gerenciar a governança, garantir a qualidade e manter a conformidade é complexo e demorado. O Dataplex Universal Catalog simplifica esse processo ao fornecer uma visão centralizada para descobrir, criar perfil, validar, rastrear a linhagem e controlar o acesso aos recursos de dados organizacionais.

Por que usar o Dataplex Universal Catalog?

O Dataplex Universal Catalog controla os dados com os seguintes recursos:

  • Catalogação de metadados. Recupere metadados de recursos do Google Cloud (no BigQuery, Cloud SQL, Spanner, Vertex AI, Pub/Sub, Dataform, Dataproc Metastore) e recursos de terceiros que você traz para o Catálogo universal do Dataplex para ter um snapshot dos seus recursos de dados.
  • Descoberta de dados. Faça uma verificação de dados estruturados e não estruturados em buckets do Cloud Storage para extrair e catalogar os metadados.
  • Insights de dados. Use a IA para gerar perguntas em linguagem natural sobre seus dados, descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.
  • Criação de perfil de dados. Identifique características comuns dos dados de coluna nas tabelas do BigQuery, por exemplo, valores típicos, distribuição e contagens de nulos, que podem informar a classificação e o controle de qualidade dos dados.
  • Qualidade dos dados. Defina e meça a qualidade dos dados nas tabelas do BigQuery validando os dados de acordo com as políticas organizacionais e registrando alertas se eles não atenderem aos critérios de qualidade.
  • Glossário empresarial. Gerencie a terminologia e as definições relacionadas aos negócios em toda a organização e anexe termos às colunas da tabela para promover uma compreensão consistente do uso de dados.
  • Linhagem de dados. Acompanhe como os dados se movimentam nos sistemas: de onde vêm, para onde vão e quais transformações são aplicadas a eles.

O Dataplex Universal Catalog oferece suporte a um ciclo de vida de dados completo, desde a descoberta distribuída até insights de negócios. Os recursos de governança também estão disponíveis no BigQuery.

A seguir