Etiqueta tablas en Dataplex según las estadísticas de los perfiles de datos

En esta página, se describe cómo aplicar automáticamente etiquetas de Dataplex a las tablas de BigQuery después de que Sensitive Data Protection genere perfiles de esas tablas. En esta página, también se proporcionan ejemplos de consultas que puedes usar para encontrar datos etiquetados en tu organización y tus proyectos.

Esta función es útil si deseas enriquecer tus metadatos seleccionados de forma manual en Dataplex con estadísticas recopiladas de los perfiles de datos de Sensitive Data Protection. Las etiquetas generadas incluyen las siguientes estadísticas:

  • Tipos de información (infoTypes) detectados en las columnas de la tabla
  • Nivel de sensibilidad calculado de la tabla
  • Nivel de riesgo de datos calculado de la tabla

Las estadísticas de los perfiles de datos de la Protección de datos sensibles pueden ayudarte a usar Dataplex para descubrir datos sensibles y de alto riesgo en tu organización. Usa estas estadísticas para tomar decisiones fundamentadas sobre cómo gestionar y administrar tus datos.

Si deseas enviar los resultados de los trabajos de inspección (no las operaciones de generación de perfiles de datos) a Dataplex, consulta Cómo enviar los resultados de la inspección de Sensitive Data Protection a Data Catalog.

Acerca de los perfiles de datos

Puedes configurar la protección de datos sensibles para generar automáticamente perfiles sobre los datos en una organización, una carpeta o un proyecto. Los perfiles de datos contienen métricas y metadatos sobre tus datos y te ayudan a determinar dónde residen los datos sensibles y de alto riesgo. La protección de datos sensibles informa estas métricas en varios niveles de detalle. Para obtener información sobre los tipos de datos que puedes perfilar, consulta Recursos compatibles.

Acerca de Dataplex y Data Catalog

Dataplex es un servicio de Google Cloud que unifica los datos distribuidos y automatiza la administración y el control de esos datos. Data Catalog es un servicio de administración de metadatos escalable y completamente administrado dentro de Dataplex.

Data Catalog te permite usar etiquetas y plantillas de etiquetas para adjuntar metadatos de la empresa a tus datos. Luego, puedes buscar y administrar todos los metadatos de tu organización o proyecto en un servicio unificado. Para obtener más información, consulta Etiquetas y plantillas de etiquetas.

Cómo funciona

Si la configuración de análisis de descubrimiento tiene habilitada la acción Enviar a Dataplex como etiquetas, Sensitive Data Protection hace lo siguiente cada vez que crea perfiles de tus datos: Esta acción solo se aplica a los perfiles nuevos y actualizados. Los perfiles existentes que no se actualizan no se envían a Dataplex.

  1. Crea una plantilla de etiqueta privada que contenga el esquema de las etiquetas que se adjuntarán a tus tablas de BigQuery. Para obtener información sobre el nombre, el ID y la ubicación de la plantilla de etiquetas, consulta Detalles de la plantilla de etiquetas.

    Solo las principales con los roles y permisos adecuados pueden ver la plantilla de etiquetas.

  2. Crea una etiqueta para cada tabla de BigQuery de la que crees un perfil. La etiqueta se basa en la plantilla de etiqueta que se creó recientemente.

    Por ejemplo, una etiqueta resultante adjunta a una tabla puede tener los siguientes metadatos:

    Nombre visible Valor
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

Una tabla tiene dos etiquetas si se generó su perfil a través de las siguientes opciones:

  • Una configuración de análisis a nivel de la organización o de la carpeta
  • Una configuración de análisis a nivel del proyecto

Después de etiquetar las tablas, puedes buscar en Dataplex todos los datos de tu organización o proyecto con valores de etiquetas específicos.

Detalles de la plantilla de etiqueta

El nombre de la plantilla, el ID de la plantilla y el proyecto en el que se almacena la plantilla de etiqueta nueva dependen del recurso al que pertenece la configuración de análisis.

  • Si la configuración de análisis es a nivel de la organización o de la carpeta, la plantilla de etiqueta se almacena en el contenedor del agente de servicio. El nombre de la plantilla de etiqueta es Sensitive Data Profile. Su ID de plantilla es sensitive_data_profile.
  • Si la configuración de análisis es a nivel del proyecto, la plantilla de etiqueta se almacena en el proyecto al que se le creará el perfil. El nombre de la plantilla de etiqueta es Sensitive Data Profile (Project). Su ID de plantilla es sensitive_data_profile_project.

Precios

Para obtener información sobre cómo otros servicios de Google Cloud pueden cobrarte por exportar perfiles de datos, consulta Precios para exportar perfiles de datos.

Etiqueta automáticamente tablas de BigQuery según los perfiles de datos

  1. Crea una configuración de análisis. Como alternativa, puedes editar una configuración de análisis existente.

  2. En el paso Agregar acciones, asegúrate de que la opción Enviar a Dataplex como etiquetas esté activada.

    • Si creas una configuración de análisis, esta acción se habilitará de forma predeterminada.
    • Si estás editando la configuración de un análisis, debes habilitar esta acción.

Después de perfilar y etiquetar los datos, puedes comenzar a buscar datos etiquetados en Dataplex.

Roles y permisos para ver etiquetas

Los resultados de la búsqueda de Dataplex solo muestran los datos a los que tienes acceso. Necesitas los siguientes roles o permisos de Identity and Access Management (IAM) para buscar las etiquetas adjuntas a tus tablas de BigQuery.

Objetivo Función predefinida Permisos relevantes
Cómo ver la plantilla de etiqueta privada Visualizador de TagTemplate de Data Catalog (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
Cómo ver las etiquetas aplicadas a las tablas de BigQuery Visualizador de metadatos de BigQuery (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

Para obtener más información sobre los roles de Dataplex, consulta Roles para ver etiquetas públicas y privadas.

Para obtener información sobre cómo otorgar un rol predefinido, consulta Otorga un solo rol. Si quieres usar un rol personalizado en lugar de uno predefinido, asegúrate de que tenga los permisos relevantes. Para obtener más información, consulta Cómo crear un rol personalizado.

Busca la plantilla de etiqueta generada

  1. En la consola de Google Cloud, ve a la página Plantillas de etiquetas de Dataplex.

    Ir a Plantillas de etiquetas

  2. En la lista, busca la plantilla de etiqueta. Para obtener información sobre el nombre, el ID y la ubicación de la plantilla de etiquetas, consulta Detalles de la plantilla de etiquetas.

  3. Opcional: Para encontrar la plantilla de etiqueta que generó una configuración de análisis de descubrimiento determinada, ingresa lo siguiente en el campo Filtro:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    Reemplaza lo siguiente:

    • PROJECT_ID: Es el ID del proyecto asociado con la configuración de análisis. Si generaste perfiles de tus datos a nivel de la organización o la carpeta, ingresa el ID del proyecto del contenedor del agente de servicio.
    • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.

Busca la etiqueta generada para un perfil de datos de tabla determinado

  1. En la consola de Google Cloud, ve a la página Búsqueda de Dataplex.

    Ir a Búsqueda

  2. En el campo Búsqueda, ingresa lo siguiente:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    Reemplaza lo siguiente:

    • TABLE_ID: El ID de la tabla de la que se generó el perfil.
    • PROJECT_ID: El ID del proyecto que contiene la plantilla de etiqueta. Si generaste perfiles de tus datos a nivel de la organización o la carpeta, ingresa el ID del proyecto del contenedor del agente de servicio.
    • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  3. En la lista que aparece, haz clic en el ID de la tabla. Los detalles de la tabla de BigQuery aparecen junto con las etiquetas Sensitive Data Profile o Sensitive Data Profile (Project) adjuntas.

    Una tabla tiene dos etiquetas si se generó su perfil a través de las siguientes opciones:

    • Una configuración de análisis a nivel de la organización o de la carpeta
    • Una configuración de análisis a nivel del proyecto

Para obtener información sobre cómo realizar una búsqueda a través de la API de Data Catalog, consulta Cómo buscar recursos de datos.

Ejemplos de consultas de búsqueda

En esta sección, se proporcionan ejemplos de consultas de búsqueda que puedes usar en Dataplex para encontrar datos en tu organización o proyecto con valores de etiquetas específicos.

Solo puedes encontrar los datos a los que tienes acceso. El acceso a los datos se controla a través de los permisos de IAM. Para obtener más información, consulta Roles y permisos para ver etiquetas en esta página.

Puedes ingresar estas búsquedas en la página Búsqueda de Dataplex en la consola de Google Cloud.

Ir a Búsqueda

Para obtener información sobre cómo formular las consultas, consulta Sintaxis de búsqueda de Data Catalog. Para obtener información sobre cómo realizar una búsqueda a través de la API de Data Catalog, consulta Cómo buscar recursos de datos.

Buscar todas las tablas etiquetadas con la nueva plantilla de etiquetas

tag:PROJECT_ID.TAG_TEMPLATE_ID

Reemplaza lo siguiente:

  • PROJECT_ID: El ID del proyecto que contiene la plantilla de etiqueta. Si generaste perfiles de tus datos a nivel de la organización o la carpeta, ingresa el ID del proyecto del contenedor del agente de servicio.
  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.

Los siguientes ejemplos de esta página no incluyen el ID del proyecto, por lo que es posible que obtengas resultados asociados con varias configuraciones de análisis de descubrimiento. Para limitar los resultados a una configuración de análisis en particular, agrega el ID del proyecto a la consulta como se muestra en este ejemplo.

Encontrar todas las tablas de las que se creó el perfil por última vez antes de una fecha determinada

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • DATE: Es una fecha en el formato YYYY-MM-DD, por ejemplo, 2023-01-15.

Busca todas las tablas con una puntuación de sensibilidad a nivel de la tabla determinada

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • SENSITIVITY_SCORE: uno de HIGH, MODERATE o LOW.

Para obtener más información, consulta Niveles de riesgo y sensibilidad de los datos.

Busca todas las tablas con un nivel de riesgo de datos determinado

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • DATA_RISK_LEVEL: uno de HIGH, MODERATE o LOW.

Para obtener más información, consulta Niveles de riesgo y sensibilidad de los datos.

Busca todas las tablas que contengan un infotipo previsto determinado

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • INFOTYPE: El Infotipo, por ejemplo, PERSON_NAME.

Para obtener una lista de todos los Infotipos integrados, consulta la Referencia del detector de Infotipo.

Para obtener más información, consulta infoType previsto en la referencia de métricas.

Encontrar todas las tablas que contienen parcialmente un Infotipo determinado

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • INFOTYPE: El Infotipo, por ejemplo, PERSON_NAME.

Para obtener una lista de todos los Infotipos integrados, consulta la Referencia del detector de Infotipo.

Para obtener más información, consulta Otros infoTypes en la referencia de métricas.

Busca todas las tablas que contienen una columna determinada con un Infotipo previsto determinado

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • COLUMN_NAME: Es el nombre de la columna en la tabla de BigQuery.
  • INFOTYPE: El Infotipo, por ejemplo, PERSON_NAME.

Para obtener una lista de todos los Infotipos integrados, consulta la Referencia del detector de Infotipo.

Para obtener más información, consulta infoType previsto en la referencia de métricas.

Busca todas las tablas que contengan una columna determinada con una puntuación de sensibilidad a nivel de la columna

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • COLUMN_NAME: Es el nombre de la columna en la tabla de BigQuery.
  • SENSITIVITY_SCORE: uno de HIGH, MODERATE o LOW.

Para obtener más información, consulta Niveles de riesgo y sensibilidad de los datos.

Valores de etiquetas truncados

Si los datos del encabezado de columna de una tabla de BigQuery superan los 10 MB, la etiqueta resultante podría mostrar [TRUNCATED] en el campo Column Insights o Column Sensitivity. En este caso, te recomendamos que vayas a la Protección de datos sensibles para revisar el perfil de datos de la tabla y los perfiles de datos de las columnas asociados.