Dataplex es un tejido de datos inteligente que unifica los datos distribuidos y automatiza la administración y el control de estos. Con Dataplex, puedes usar la IA para facilitar las consultas de datos, el control de calidad y las estadísticas empresariales.
Dataplex realiza la administración a gran escala. Por ejemplo, una empresa minorista global que genera grandes cantidades de datos de ventas, inventario y clientes almacenados en Cloud Storage, Spanner y Pub/Sub. Con los datos distribuidos en varios sistemas, administrar la gobernanza, garantizar la calidad y mantener el cumplimiento es complejo y lleva tiempo. Dataplex simplifica este proceso, ya que proporciona una vista central para descubrir, perfilar, validar, hacer un seguimiento del linaje y controlar el acceso a los recursos de datos de la organización.
¿Por qué usar Dataplex?
Dataplex administra los datos a través de las siguientes funciones:
- Catalogación de metadatos: Recupera metadatos para los recursos de Google Cloud (en BigQuery, Cloud SQL, Spanner, Vertex AI, Pub/Sub, Dataform y Dataproc Metastore) y los recursos de terceros que incorporas a Dataplex para obtener un resumen de tus recursos de datos.
- Descubrimiento de datos: Busca datos estructurados y no estructurados en los buckets de Cloud Storage para extraer y catalogar sus metadatos.
- Estadísticas de datos: Usa la IA para generar preguntas en lenguaje natural sobre tus datos, descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.
- Creación de perfiles de datos: Identifica las características comunes de los datos de las columnas en tus tablas de BigQuery, por ejemplo, los valores de datos típicos, la distribución de datos y los recuentos nulos, que pueden informar la clasificación de datos y el control de calidad.
- Calidad de los datos: Define y mide la calidad de los datos en tus tablas de BigQuery. Para ello, valida los datos en función de las políticas de la organización y registra alertas si los datos no cumplen con los criterios de calidad.
- Glosario empresarial: Administra la terminología y las definiciones relacionadas con la empresa en toda tu organización, y adjunta términos a las columnas de las tablas para promover una comprensión coherente del uso de los datos.
- Linaje de datos: Haz un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se les aplican.
Dataplex admite un ciclo de vida de datos de extremo a extremo, desde el descubrimiento distribuido hasta las estadísticas empresariales. Las funciones de administración también están disponibles a través de BigQuery.
¿Qué sigue?
- Obtén más información sobre la administración de BigQuery.
- Obtén información sobre Dataplex Catalog.
- Obtén información para buscar recursos de datos en Dataplex Catalog.
- Obtén más información para administrar entradas y transferir fuentes personalizadas.
- Obtén más información para importar metadatos a Dataplex.