Descripción general del Catálogo universal de Dataplex

Dataplex Universal Catalog es una solución de administración inteligente y unificada para los recursos de datos y de IA en Google Cloud. Con Dataplex Universal Catalog, puedes usar la IA para simplificar las consultas de datos, el control de calidad y las estadísticas empresariales.

Dataplex Universal Catalog realiza la administración a gran escala. Por ejemplo, una empresa minorista global que genera grandes cantidades de datos de ventas, inventario y clientes almacenados en Cloud Storage, Spanner y Pub/Sub. Con los datos distribuidos en varios sistemas, administrar la administración, garantizar la calidad y mantener el cumplimiento es complejo y requiere mucho tiempo. Dataplex Universal Catalog simplifica este proceso, ya que proporciona una vista central para descubrir, generar perfiles, validar, hacer un seguimiento del linaje y controlar el acceso a los recursos de datos de la organización.

¿Por qué usar Dataplex Universal Catalog?

Dataplex Universal Catalog administra los datos a través de las siguientes funciones:

  • Categorización de metadatos. Recupera metadatos para los recursos Google Cloud (en BigQuery, Cloud SQL, Spanner, Vertex AI, Pub/Sub, Dataform y Dataproc Metastore), así como los recursos de terceros que incorporas a Dataplex Universal Catalog, para obtener una instantánea de tus recursos de datos.
  • Descubrimiento de datos. Analiza los datos estructurados y no estructurados en los buckets de Cloud Storage para extraer y catalogar sus metadatos.
  • Estadísticas de datos. Usar la IA para generar preguntas en lenguaje natural sobre tus datos, descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos
  • Creación de perfiles de datos. Identificar características comunes de los datos de las columnas en tus tablas de BigQuery, por ejemplo, valores de datos típicos, distribución de datos y recuentos de valores nulos, que pueden proporcionar información para la clasificación de datos y el control de calidad
  • Calidad de los datos. Define y mide la calidad de los datos en tus tablas de BigQuery validando los datos según las políticas de la organización y registrando alertas si los datos no cumplen con los criterios de calidad.
  • Glosario empresarial. Administra la terminología y las definiciones relacionadas con la empresa en toda tu organización, y adjunta términos a las columnas de la tabla para promover una comprensión coherente del uso de los datos.
  • Linaje de datos. Haz un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se aplican a ellos.

Dataplex Universal Catalog admite un ciclo de vida de los datos de extremo a extremo, desde el descubrimiento distribuido hasta las estadísticas empresariales. Las funciones de administración también están disponibles a través de BigQuery.

¿Qué sigue?