Crea y usa análisis de perfiles de datos

En esta página, se muestra cómo crear un análisis de perfil de datos con el La consola de Google Cloud, Google Cloud CLI o la API de REST.

Para obtener más información sobre los análisis de perfiles de datos de Dataplex, consulta Acerca de la generación de perfiles de datos.

Antes de comenzar

En la consola de Google Cloud, habilita la API de Dataplex.

Habilitar la API

Permisos

Para generar perfiles de las tablas de BigQuery, necesitas los siguientes permisos:

  • Para ejecutar un análisis de perfil de datos en una tabla de BigQuery, necesitas permiso para leer la tabla de BigQuery y permiso para crear un trabajo de BigQuery en el proyecto que se usa para analizar la tabla.

  • Si la tabla de BigQuery y el análisis del perfil de datos están en proyectos diferentes, debes otorgarle al servicio Dataplex permiso de lectura de la cuenta de servicio en la tabla de BigQuery correspondiente.

  • Si los datos de BigQuery están organizados en Dataplex Luego, para crear un análisis de perfil de datos, necesitas Dataplex roles roles/dataplex.metadataReader y roles/dataplex.viewer. Esto otorga los siguientes permisos:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Si analizas una tabla externa de BigQuery desde Cloud Storage y, luego, asigna la cuenta de servicio de Dataplex el visualizador de objetos de Cloud Storage (roles/storage.objectViewer) o los siguientes permisos para el bucket:

    • storage.buckets.get
    • storage.objects.get
  • Si quieres publicar los resultados del análisis del perfil de datos en la las páginas de BigQuery y Data Catalog del de Google Cloud para las tablas fuente, se te debe otorgar el permiso Rol de IAM de editor de datos de BigQuery (roles/bigquery.dataEditor) o el permiso bigquery.tables.update en la tabla.

  • Para exportar los resultados del análisis a una tabla de BigQuery, tu La cuenta de servicio de Dataplex necesita BigQuery Editor de datos (roles/bigquery.dataEditor). Esto otorga lo siguiente permisos:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Si necesitas acceder a columnas protegidas por políticas de acceso a nivel de columnas de BigQuery, asigna los permisos de la cuenta de servicio de Dataplex para esas columnas. El usuario que crea o actualiza un análisis de datos también necesita permisos para las columnas.

  • Si una tabla tiene habilitadas las políticas de acceso a nivel de fila de BigQuery, solo podrás analizar las filas visibles para la cuenta de servicio de Dataplex. Ten en cuenta que los privilegios de acceso de usuario individual no se evalúan según las políticas a nivel de fila.

Roles y permisos del análisis de datos

Para usar la creación de perfiles de datos, un administrador del proyecto asigna un rol predefinido con permisos ya otorgados, o bien otorga permisos individuales. Los roles son los siguientes:

  • roles/dataplex.dataScanAdmin: Acceso completo a DataScan recursos.
  • roles/dataplex.dataScanEditor: Acceso de escritura a los recursos DataScan.
  • roles/dataplex.dataScanViewer: Acceso de lectura a los recursos de DataScan, excepto los resultados.
  • roles/dataplex.dataScanDataViewer: acceso de lectura a los recursos de DataScan, incluidos los resultados.

En la siguiente tabla, se enumeran los permisos de análisis de datos:

Nombre del permiso Otorga permiso para hacer lo siguiente:
dataplex.datascans.create Crea una DataScan
dataplex.datascans.delete Borra una DataScan
dataplex.datascans.get Ver DataScan detalles, sin incluir los resultados
dataplex.datascans.getData Ver DataScan detalles, incluidos los resultados
dataplex.datascans.list Enumerar DataScans
dataplex.datascans.run Ejecuta una DataScan
dataplex.datascans.update Actualiza la descripción de un DataScan
dataplex.datascans.getIamPolicy Ver los permisos de IAM actuales en el análisis
dataplex.datascans.setIamPolicy Configurar permisos de IAM en el análisis

Crea un análisis de perfil de datos

Console

  1. En la consola de Google Cloud, ve a la página Perfil.

    Ir a Perfil de Dataplex

  2. Haz clic en Create data profile scan.

  3. Ingresa un Nombre visible.

  4. Para cambiar el ID de análisis generado automáticamente, proporciona uno propio. Consulta Convención de nomenclatura de recursos.

  5. Ingresa una Descripción (opcional).

  6. En el campo Tabla, haz clic en Explorar.

  7. Selecciona una tabla y haz clic en Seleccionar.

  8. En el campo Alcance, elige Incrementales o Datos completos.

    • Si eliges Datos incrementales, en el campo Columna de marca de tiempo, haz lo siguiente: selecciona una columna de tipo DATE o TIMESTAMP de tu de BigQuery que aumenta monótonamente y se puede que se usan para identificar registros nuevos. Para tablas particionadas en una columna de tipo DATE o TIMESTAMP, recomendamos usar la columna de partición como la timestamp.
  9. Para aplicar el muestreo al análisis de tu perfil de datos, en Tamaño de muestreo lista, selecciona un porcentaje de muestreo.

    • Elige un valor porcentual que se encuentre entre 0.0% y 100.0% con hasta 3 dígitos decimales.
    • Para conjuntos de datos más grandes, elige un porcentaje de muestreo más bajo. Por ejemplo: para una tabla de ~1 PB, si ingresas un valor entre 0.1% y 1.0%, Dataplex muestra entre 1 y 10 TB de datos.
    • Necesitas al menos 100 registros en los datos muestreados para devolver un resultado.
    • Para los análisis de datos incrementales, Dataplex aplica el muestreo a el último incremento.
  10. Para filtrar por fila, haz clic en Filtros y selecciona Filtrar filas.

    • Ingresa una expresión SQL válida que pueda usarse en una cláusula WHERE en Sintaxis de SQL estándar de BigQuery. Por ejemplo: col1 >= 0.

    • El filtro puede ser una combinación de condiciones SQL de varias columnas. Por ejemplo: col1 >= 0 AND col2 < 10.

  11. Opcional: Haz clic en Filtros. Selecciona la casilla de verificación Filtrar columnas.

    a. En el campo Incluir columnas, haz clic en Explorar.

    • Especifica las columnas que se incluirán en el análisis de perfil. Selecciona el para las columnas que elijas, marca las casillas y haz clic en Seleccionar.

    b. En el campo Excluir columnas, haz clic en Explorar.

    • Especifica las columnas que deseas excluir del análisis de perfil. Selecciona el para las columnas que elijas, marca las casillas y haz clic en Seleccionar.
  12. Opcional: Publica los resultados del análisis del perfil de datos en la las páginas de BigQuery y Data Catalog del consola de Google Cloud para la tabla de origen. Haz clic en el ícono Publica los resultados en la IU de BigQuery y Dataplex Catalog .

    Puedes ver los resultados del análisis más reciente en la pestaña Data Profile de la Páginas de BigQuery y Data Catalog de la fuente desde una tabla de particiones. Para permitir que los usuarios accedan a los resultados del análisis publicado, consulta Comparte los resultados publicados.

    Es posible que la opción de publicación no esté disponible en los siguientes casos:

    • No tienes los permisos necesarios en la tabla.
    • Otro análisis de calidad de los datos está configurado para publicar resultados.

    Si deseas obtener más información sobre los permisos necesarios para ver el resultados publicados, consulta Permisos.

  13. Opcional: Exporta los resultados del análisis a un estándar de BigQuery desde una tabla de particiones. Haz clic en Explorar para seleccionar un BigQuery existente. para almacenar los resultados del análisis del perfil de datos.

    Si la tabla especificada no existe, Dataplex la crea para ti. Si usas una tabla existente, asegúrate de que sea compatible con el esquema de tabla que se describe más adelante en esta sección.

  14. Opcional: Agrega etiquetas. Las etiquetas son pares key:value que te permiten agrupar juntos o con otros recursos de Google Cloud.

  15. En Opciones de programación, elige una de las siguientes opciones:

    • Repetir: Ejecuta el trabajo de análisis del perfil de datos según un programa: diariamente, semanal, mensual o personalizada. Especifica la frecuencia con la que se debe ejecutar el análisis y en qué momento. Si eliges una opción personalizada, cron para especificar la de un proyecto.

    • A pedido: Crea tu análisis de perfil de datos y ejecútalo en cualquier momento con la acción Ejecutar ahora.

  16. Haz clic en Crear.

gcloud

Para crear un análisis de perfil de datos, ejecuta el siguiente comando:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY
| --data-source-resource=DATA_SOURCE_RESOURCE

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis del perfil de datos.
  • LOCATION: Es la región de Google Cloud en la que se creará. el análisis del perfil de datos.
  • DATA_SOURCE_ENTITY: Dataplex que contiene los datos para el análisis del perfil de datos. Por ejemplo, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
  • DATA_SOURCE_RESOURCE: Es el nombre del recurso. que contiene los datos para el análisis del perfil de datos. Por ejemplo, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

Para ver los argumentos opcionales, consulta la referencia de la CLI de gcloud.

REST

Usa el Explorador de APIs para crear un análisis de perfil de datos.

Crea varios análisis de perfiles de datos

Console

  1. En la consola de Google Cloud, ve a la página Perfil.

    Ir a Perfil de Dataplex

  2. Haz clic en Crear varios análisis de perfiles.

  3. Ingresa un prefijo de ID. Dataplex genera análisis automáticamente IDs mediante el prefijo proporcionado y los sufijos únicos.

  4. Ingresa una Descripción para todos los análisis del perfil de datos.

  5. En el campo Conjunto de datos, haz clic en Explorar. Selecciona un conjunto de datos para elegir las tablas de la imagen de la que se originó. Haz clic en Seleccionar.

  6. Si el conjunto de datos es multirregional, selecciona la Región en la que deseas crearlo. los análisis del perfil de datos.

  7. Selecciona Opciones de configuración comunes:

    1. En el campo Alcance, elige Incrementales o Datos completos.

    2. Para aplicar el muestreo a los análisis de tu perfil de datos, en Tamaño de muestreo lista, selecciona un porcentaje de muestreo.

      Elige un valor porcentual entre el 0.0% y el 100.0% con hasta 3 decimales. dígitos.

    3. Para mostrar los resultados de todos los análisis, selecciona Publicación. Puedes ver los resultados en la pestaña Perfil de BigQuery o Detalles de la tabla de Data Catalog. Asegúrate de tener las Los permisos bigquery.tables.update en las tablas de origen.

    4. En Opciones de programación, elige una de las siguientes opciones:

      1. Repetir: Ejecuta los trabajos de análisis de tu perfil de datos de forma programada. Especificar la frecuencia con la que se ejecutará el análisis (diario, semanal, mensual o personalizado) en qué momento. Si eliges el modo personalizado, usa cron. para especificar el programa.

      2. A pedido: crea los trabajos de análisis del perfil de datos y ejecútalos en en cualquier momento si haces clic en Ejecutar.

  8. En la opción Elegir tablas, haz clic en Explorar. Elige uno o más de las tablas que se analizarán. Haz clic en Seleccionar.

  9. Selecciona Configuración adicional:

    1. Para guardar los resultados de los análisis de tu perfil de datos en una de BigQuery que elijas, elige una tabla Exporta los resultados del análisis a la tabla de BigQuery. Dataplex copia y guarda automáticamente los resultados en esta tabla para cada análisis el trabajo.

      1. Haz clic en Explorar para seleccionar un conjunto de datos.

      2. Ingresa la tabla de BigQuery en la que se guardarán los resultados. Esto puede ser una tabla existente, usada por otros datos de Dataplex análisis de perfiles para guardar los resultados. Si no existe tal tabla con el nombre especificado, Dataplex crea la tabla.

    2. Agrega etiquetas para anotar el análisis de tu perfil de datos.

  10. Haz clic en Run scan para crear y ejecutar todos los análisis. Esta opción solo es disponibles para análisis a pedido.

  11. Haz clic en Crear para crear todos los análisis.

gcloud

No compatible.

REST

No compatible.

Exportar esquema de tabla

Si quieres exportar los resultados del análisis del perfil de datos a un de BigQuery, asegúrate de que sea compatible con el siguiente esquema de tabla:

Nombre de la columna Tipo de datos de la columna Nombre del subcampo
(si corresponde)
Tipo de datos de subcampo Modo Ejemplo
data_profile_scan struct/record resource_name string anulable //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string anulable test-project
location string anulable us-central1
data_scan_id string anulable test-datascan
data_source struct/record resource_name string anulable Caso de entidad:
//dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

Caso de tabla: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
dataplex_entity_project_id string anulable test-project
dataplex_entity_project_number integer anulable 123456789012
dataplex_lake_id string anulable (Válido solo si la fuente es una entidad)
test-lake
dataplex_zone_id string anulable (Válido solo si la fuente es una entidad)
test-zone
dataplex_entity_id string anulable (Válido solo si la fuente es una entidad)
test-entity
table_project_id string anulable dataplex-table
table_project_number int64 anulable 345678901234
dataset_id string anulable (Válido solo si el origen es una tabla)
test-dataset
table_id string anulable (Válido solo si el origen es una tabla)
test-table
data_profile_job_id string anulable caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string anulable ondemand/schedule
incremental boolean anulable true/false
sampling_percent float anulable (0-100)
20.0 (indica un 20%)
row_filter string anulable col1 >= 0 AND col2 < 10
column_filter json anulable {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
job_labels json anulable {"key1":value1}
job_start_time timestamp anulable 2023-01-01 00:00:00 UTC
job_end_time timestamp anulable 2023-01-01 00:00:00 UTC
job_rows_scanned integer anulable 7500
column_name string anulable column-1
column_type string anulable string
column_mode string anulable repeated
percent_null float anulable (de 0.0 a 100.0)
20.0 (indica un 20%)
percent_unique float anulable (de 0.0 a 100.0)
92.5
min_string_length integer anulable (Válido solo si el tipo de columna es una cadena)
10
max_string_length integer anulable (Válido solo si el tipo de columna es una cadena)
4
average_string_length float anulable (Válido solo si el tipo de columna es una cadena)
7.2
min_value float anulable (Válido solo si el tipo de columna es numérico: entero/flotante)
max_value float anulable (Válido solo si el tipo de columna es numérico: entero/flotante)
average_value float anulable (Válido solo si el tipo de columna es numérico: entero/flotante)
standard_deviation float anulable (Válido solo si el tipo de columna es numérico: entero/flotante)
quartile_lower integer anulable (Válido solo si el tipo de columna es numérico: entero/flotante)
quartile_median integer anulable (Válido solo si el tipo de columna es numérico: entero/flotante)
quartile_upper integer anulable (Válido solo si el tipo de columna es numérico: entero/flotante)
top_n struct/record - repeated value string anulable "4009"
count integer anulable 20
percent float anulable 10 (indica un 10%)

Exportar la configuración de la tabla

Cuando exportas a BigQueryExport tablas, sigue estas pautas:

  • Para el campo resultsTable, usa el siguiente formato: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}
  • Usar una tabla estándar de BigQuery
  • Si la tabla no existe cuando se crea o actualiza el análisis, Dataplex crea la tabla por ti.
  • De forma predeterminada, la tabla se particiona en la columna job_start_time a diario.
  • Si quieres que la tabla se particionara en otras configuraciones o si no quieres la partición y, luego, vuelve a crear la tabla con los atributos y parámetros de configuración, y luego proporcionarás la tabla creada previamente como en la tabla de resultados.
  • Asegúrate de que la tabla de resultados se encuentre en la misma ubicación que la tabla de origen.
  • Si se configura VPC-SC en el proyecto, la tabla de resultados debe estar en mismo perímetro de VPC-SC que la tabla de origen.
  • Si la tabla se modifica durante la etapa de ejecución del análisis, el estado las exportaciones de trabajos en ejecución a la tabla de resultados anterior y el cambio en la tabla se aplicará a partir del siguiente trabajo de análisis.
  • No modifiques el esquema de la tabla. Si necesitas columnas personalizadas, crea una vista sobre la mesa.
  • Para reducir costos, configura un vencimiento para la partición según tu caso de uso. Para obtener más información, consulta cómo configurar el vencimiento de la partición.

Ejecuta un análisis de perfil de datos

Console

  1. En la consola de Google Cloud, ve a Dataplex Perfil. Ir al perfil
  2. Haz clic en el análisis del perfil de datos para ejecutarlo.
  3. Haz clic en Ejecutar ahora.

gcloud

Para ejecutar un análisis de perfil de datos, ejecuta el siguiente comando:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis del perfil de datos.
  • LOCATION: Es la región de Google Cloud en la que se Se creó el análisis de perfil de datos.

Para ver los argumentos opcionales, consulta la referencia de la CLI de gcloud.

REST

Usa el Explorador de APIs para ejecutar el análisis de tu perfil de datos.

Visualiza los resultados del trabajo de análisis del perfil de datos

Console

Todos los análisis del perfil de datos que creas aparecen en la página Perfil.

Para ver los resultados detallados de un análisis, haz clic en el nombre del análisis.

  • En la sección Descripción general, se muestran las ejecuciones del análisis, la hora de cada ejecución, la cantidad de registros de tablas analizados y el estado del trabajo.

  • La sección Configuración del análisis de perfil contiene detalles sobre el análisis.

gcloud

Para ver los resultados de un trabajo de análisis de perfil de datos, ejecuta el siguiente comando:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Reemplaza las siguientes variables:

  • JOB: Es el ID de trabajo del trabajo de análisis del perfil de datos.
  • LOCATION: Es la región de Google Cloud en la que se Se creó el análisis de perfil de datos.
  • DATASCAN: Es el nombre del perfil de datos que analiza el al que pertenece el trabajo.
  • --view=FULL: Para ver el resultado del trabajo de análisis, especifica FULL.

Para ver los argumentos opcionales, consulta la referencia de la CLI de gcloud.

REST

Usa el Explorador de APIs para ver los resultados de un análisis de perfil de datos.

Ver el trabajo de análisis del perfil de datos más reciente

Console

La pestaña Últimos resultados del trabajo, cuando hay, al menos, uno de forma correcta. y completa la ejecución, proporciona información sobre el trabajo más reciente. Enumera los datos analizados columnas de la tabla y estadísticas acerca de las columnas que se encontraron en el análisis.

gcloud

Para ver el análisis de perfil de datos exitoso más reciente, ejecuta el siguiente comando: :

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis de perfil de datos que se mostrará. el trabajo más reciente.
  • LOCATION: Es la región de Google Cloud en la que se encuentran se creó el análisis de perfil.
  • --view=FULL: Para ver el resultado del trabajo de análisis, especifica FULL.

Para ver los argumentos opcionales, consulta la referencia de la CLI de gcloud.

REST

Usa el Explorador de APIs para ver el trabajo de análisis más reciente.

Ver todos los trabajos de análisis del perfil de datos

Dataplex guarda el historial de análisis del perfil de datos de los últimos 300 o durante el último año, lo que ocurra primero.

Console

En la pestaña Historial de trabajos, se proporciona información sobre los trabajos anteriores. Enumera todos los trabajos, la cantidad de registros analizados en cada trabajo, el estado, el tiempo de ejecución del trabajo y mucho más.

Para ver la información detallada de un trabajo, haz clic en ID de trabajo.

gcloud

Para ver todos los trabajos de un análisis de perfil de datos, ejecuta el siguiente comando:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Reemplaza las siguientes variables:

  • LOCATION: Es la región de Google Cloud en la que se encuentran se creó el análisis de perfil.
  • DATASCAN: Es el nombre del análisis de perfil de datos que se mostrará. para todos los trabajos.

Para ver los argumentos opcionales, consulta la referencia de la CLI de gcloud.

REST

Usa el Explorador de APIs para ver todos los trabajos de análisis.

Compartir los resultados publicados

Cuando creas un análisis de perfil de datos, si elegiste publicar los resultados del análisis en las páginas de BigQuery y Data Catalog del la consola de Google Cloud, los resultados del análisis más reciente estarán disponibles en Perfil de datos de esas páginas.

Puedes permitir que los usuarios de tu organización accedan al de análisis publicados. Para otorgar acceso a los resultados del análisis, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Perfil.

    Ir a Perfil de Dataplex

  2. Haz clic en el análisis del perfil de datos del que deseas compartir los resultados.

  3. Ve a la pestaña Permisos.

  4. Haz clic en Otorgar acceso.

  5. En el campo Principales nuevas, agrega la principal a la que deseas asignar. otorgar acceso.

  6. En el campo Selecciona un rol, selecciona Dataplex DataScan DataViewer.

  7. Haz clic en Guardar.

Para quitar el acceso a los resultados del análisis publicados de una principal, sigue estos pasos: pasos:

  1. En la consola de Google Cloud, ve a la página Perfil.

    Ir a Perfil de Dataplex

  2. Haz clic en el análisis del perfil de datos del que deseas compartir los resultados.

  3. Ve a la pestaña Permisos.

  4. Selecciona la principal para la que deseas quitar el Dataplex DataScan DataViewer. en el área de la seguridad en la nube.

  5. Haga clic en Quitar acceso.

  6. Haz clic en Confirmar.

Actualiza un análisis de perfil de datos

Console

  1. En la consola de Google Cloud, ve a la página Perfil.

    Ir a Perfil de Dataplex

  2. En la fila del análisis que quieras editar, haz clic &gt; Editar.

  3. Edite los valores.

  4. Haz clic en Guardar.

gcloud

Para actualizar un análisis de perfil de datos, ejecuta el siguiente comando:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del perfil de datos que se analizará para el análisis del perfil de datos. actualización.
  • LOCATION: Es la región de Google Cloud en la que se encuentran se creó el análisis de perfil.
  • DESCRIPTION: Es la descripción nueva de los datos. análisis de perfil.

Para actualizar los campos de especificación, consulta la referencia de la CLI de gcloud.

REST

Usa el Explorador de APIs para editar un análisis de perfil de datos.

Borrar un análisis de perfil de datos

Console

  1. En la consola de Google Cloud, ve a la página Perfil. Ir al Perfil de Dataplex

  2. Haz clic en el análisis que quieres borrar.

  3. Haz clic en Borrar.

gcloud

Para borrar un análisis de perfil de datos, ejecuta el siguiente comando:

gcloud dataplex datascans delete \
DATASCAN --location=LOCATION \
--async

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del perfil de datos que se analizará para el análisis del perfil de datos. borrar.
  • LOCATION: Es la región de Google Cloud en la que se encuentran se creó el análisis de perfil.

Para ver los argumentos opcionales, consulta la referencia de la CLI de gcloud.

REST

Usa el Explorador de APIs para borrar tu análisis de perfil de datos.

Próximos pasos