La creación de perfiles de datos de Dataplex Universal Catalog te permite identificar características estadísticas comunes de las columnas en tus tablas de BigQuery. Esta información te ayuda a comprender y analizar tus datos de manera más eficaz.
La información, como los valores de datos típicos, la distribución de datos y los recuentos de valores nulos, puede acelerar el análisis. Cuando se combina con la clasificación de datos, la generación de perfiles de datos puede detectar clases de datos o información sensible que, a su vez, puede habilitar políticas de control de acceso.
Dataplex Universal Catalog también usa esta información para recomendar reglas para las verificaciones de calidad de los datos.
Modelo conceptual
Dataplex Universal Catalog te permite comprender mejor el perfil de tus datos creando un análisis de perfil de datos.
En el siguiente diagrama, se muestra cómo el catálogo universal de Dataplex analiza los datos para generar informes sobre las características estadísticas.
Un análisis de perfil de datos se asocia con una tabla de BigQuery y la analiza para generar los resultados del perfil de datos. Un análisis de perfil de datos admite varias opciones de configuración.
Opciones de configuración
En esta sección, se describen las opciones de configuración disponibles para ejecutar análisis de generación de perfiles de datos.
Opciones de programación
Puedes programar un análisis de perfil de datos con una frecuencia definida o a pedido a través de la API o la consola de Google Cloud .
Alcance
Como parte de la especificación de un análisis de perfil de datos, puedes especificar el alcance de un trabajo como una de las siguientes opciones:
Tabla completa: Se analiza toda la tabla en el análisis de perfil de datos. El muestreo, los filtros de filas y los filtros de columnas se aplican a toda la tabla antes de calcular las estadísticas de generación de perfiles.
Incremental: Los datos incrementales que especifiques se analizarán en el análisis de perfil de datos. Especifica una columna
Date
oTimestamp
en la tabla para usarla como incremento. Por lo general, esta es la columna en la que se particiona la tabla. El muestreo, los filtros de filas y los filtros de columnas se aplican a los datos incrementales antes de calcular las estadísticas de creación de perfiles.
Filtra datos
Puedes filtrar los datos que se analizarán para la generación de perfiles con filtros de filas y columnas. El uso de filtros te ayuda a reducir el tiempo y el costo de ejecución, y a excluir los datos sensibles y no útiles.
Filtros de filas: Los filtros de filas te permiten enfocarte en los datos de un período específico o de un segmento específico, como una región. Por ejemplo, puedes filtrar los datos con una marca de tiempo anterior a una fecha determinada.
Filtros de columnas: Los filtros de columnas te permiten incluir y excluir columnas específicas de tu tabla para ejecutar el análisis de creación de perfiles de datos.
Datos de muestra
Dataplex Universal Catalog te permite especificar un porcentaje de registros de tus datos para tomar una muestra y ejecutar un análisis de generación de perfiles de datos. Crear análisis de perfilamiento de datos en una muestra más pequeña de datos puede reducir el tiempo de ejecución y el costo de consultar el conjunto de datos completo.
Varios análisis de perfil de datos
Dataplex Universal Catalog te permite crear varios análisis de perfiles de datos a la vez con la consola de Google Cloud . Puedes seleccionar hasta 100 tablas de un conjunto de datos y crear un análisis de perfil de datos para cada conjunto de datos. Obtén más información.
Exporta los resultados del análisis a una tabla de BigQuery
Puedes exportar los resultados del análisis de perfil de datos a una tabla de BigQuery para analizarlos en detalle. Para personalizar los informes, puedes conectar los datos de la tabla de BigQuery a un panel de Looker. Puedes generar un informe agregado con la misma tabla de resultados en varios análisis.
Resultados de la generación de perfiles de datos
Los resultados de la generación de perfiles de datos incluyen los siguientes valores:
Tipo de columna | Resultados de la generación de perfiles de datos |
---|---|
Columna numérica |
|
Columna de cadena |
|
Otras columnas no anidadas (fecha, hora, marca de tiempo, binario, etcétera) |
|
Todas las demás columnas de tipo de datos anidados o complejos (como Record, Array, JSON) o cualquier columna con el modo repeated |
|
Los resultados incluyen la cantidad de registros analizados en cada ejecución.
Generación de informes y supervisión
Puedes supervisar y analizar los resultados de la generación de perfiles de datos con los siguientes informes y métodos:
Informes publicados con la tabla de origen en las páginas de BigQuery y Dataplex Universal Catalog
Si configuraste un análisis de perfil de datos para publicar los resultados en las páginas de BigQuery y Dataplex Universal Catalog en la consola deGoogle Cloud , puedes ver los resultados más recientes del análisis de perfil de datos en estas páginas en la pestaña Perfil de datos, desde cualquier proyecto.
Informe histórico por trabajo en Dataplex Universal Catalog
En la página Perfil de Dataplex Universal Catalog, puedes ver los informes detallados de los trabajos más recientes y los históricos. Esto incluye la información del perfil a nivel de la columna y la configuración que se usó.
Pestaña Análisis
En la página Perfil de Dataplex Universal Catalog, puedes usar la pestaña Análisis para ver las tendencias de una estadística determinada de una columna en varios trabajos de perfil. Por ejemplo, si tienes un análisis incremental, puedes ver cómo ha evolucionado el promedio de un valor con el tiempo.
Crea tu propio panel o estadísticas
Si configuraste un análisis de perfil de datos para exportar o guardar los resultados en una tabla de BigQuery, puedes crear tus propios paneles con herramientas como Looker Studio.
Limitaciones
- La generación de perfiles de datos es compatible con las tablas de BigQuery que tienen todos los tipos de columnas, excepto
BIGNUMERIC
. Un análisis creado para una tabla con una columnaBIGNUMERIC
genera un error de validación y no se crea correctamente.
Precios
Dataplex Universal Catalog usa el SKU de procesamiento premium para cobrar por la generación de perfiles de datos. Para obtener más información, consulta Precios.
El procesamiento premium de Dataplex Universal Catalog para la generación de perfiles de datos se factura por segundo con un mínimo de un minuto.
No se te cobra por los análisis de generación de perfiles fallidos.
El cargo depende de la cantidad de filas y columnas, la cantidad de datos analizados, la configuración de partición y agrupamiento en clústeres de la tabla, y la frecuencia del análisis.
Existen varias opciones para reducir el costo de los análisis de perfil de los datos:
- Muestreo
- Análisis incrementales
- Filtrado de columnas
- Filtrado de filas
Para separar los cargos de la generación de perfiles de datos de otros cargos en el SKU de procesamiento premium de Dataplex Universal Catalog, en el informe de Cloud Billing, usa la etiqueta
goog-dataplex-workload-type
con el valorDATA_PROFILE
.Para filtrar los cargos agregados, usa las siguientes etiquetas:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
Próximos pasos
- Obtén más información para usar la generación de perfiles de datos.
- Obtén más información sobre la calidad de los datos automática.
- Obtén más información para usar la calidad de los datos automática.
- Aprende a explorar tus datos y generar estadísticas de ellos.