Descripción general de Dataplex

Dataplex es un tejido de datos inteligente que unifica los datos distribuidos y automatiza la administración y el control de estos. Con Dataplex, puedes usar la IA para facilitar las consultas de datos, el control de calidad y las estadísticas empresariales.

Dataplex realiza la administración a gran escala. Por ejemplo, una empresa minorista global que genera grandes cantidades de datos de ventas, inventario y clientes almacenados en Cloud Storage, Spanner y Pub/Sub. Con los datos distribuidos en varios sistemas, administrar la gobernanza, garantizar la calidad y mantener el cumplimiento es complejo y lleva tiempo. Dataplex simplifica este proceso, ya que proporciona una vista central para descubrir, perfilar, validar, hacer un seguimiento del linaje y controlar el acceso a los recursos de datos de la organización.

¿Por qué usar Dataplex?

Dataplex administra los datos a través de las siguientes funciones:

  • Catalogación de metadatos: Recupera metadatos para los recursos de Google Cloud (en BigQuery, Cloud SQL, Spanner, Vertex AI, Pub/Sub, Dataform y Dataproc Metastore) y los recursos de terceros que incorporas a Dataplex para obtener un resumen de tus recursos de datos.
  • Descubrimiento de datos: Busca datos estructurados y no estructurados en los buckets de Cloud Storage para extraer y catalogar sus metadatos.
  • Estadísticas de datos: Usa la IA para generar preguntas en lenguaje natural sobre tus datos, descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.
  • Creación de perfiles de datos: Identifica las características comunes de los datos de las columnas en tus tablas de BigQuery, por ejemplo, los valores de datos típicos, la distribución de datos y los recuentos nulos, que pueden informar la clasificación de datos y el control de calidad.
  • Calidad de los datos: Define y mide la calidad de los datos en tus tablas de BigQuery. Para ello, valida los datos en función de las políticas de la organización y registra alertas si los datos no cumplen con los criterios de calidad.
  • Glosario empresarial: Administra la terminología y las definiciones relacionadas con la empresa en toda tu organización, y adjunta términos a las columnas de las tablas para promover una comprensión coherente del uso de los datos.
  • Linaje de datos: Haz un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se les aplican.

Dataplex admite un ciclo de vida de datos de extremo a extremo, desde el descubrimiento distribuido hasta las estadísticas empresariales. Las funciones de administración también están disponibles a través de BigQuery.

¿Qué sigue?