Etiqueta tablas en Data Catalog según las estadísticas de los perfiles de datos

En esta página, se describe cómo aplicar automáticamente etiquetas de Data Catalog a las tablas de BigQuery después de que la Protección de datos sensibles genere perfiles de esas tablas. En esta página, también se proporcionan ejemplos de consultas que puedes usar para encontrar datos etiquetados en tu organización y tus proyectos.

Esta función es útil si deseas enriquecer los metadatos seleccionados manualmente en Dataplex Universal Catalog con estadísticas recopiladas a partir de los perfiles de datos de Sensitive Data Protection. Las etiquetas generadas incluyen las siguientes estadísticas:

  • Tipos de información (infoTypes) detectados en las columnas de la tabla
  • Nivel de sensibilidad calculado de la tabla
  • Nivel de riesgo de datos calculado de la tabla

Las estadísticas de los perfiles de datos de la Protección de datos sensibles pueden ayudarte a usar el catálogo universal de Dataplex para descubrir datos sensibles y de alto riesgo en tu organización. Usa estas estadísticas para tomar decisiones fundamentadas sobre cómo administrar y controlar tus datos.

Si deseas enviar los resultados de los trabajos de inspección (no las operaciones de generación de perfiles de datos) a Dataplex Universal Catalog, consulta Envía los resultados de la inspección de Protección de datos sensibles a Data Catalog.

Acerca de los perfiles de datos

Puedes configurar la protección de datos sensibles para que genere automáticamente perfiles sobre los datos en una organización, una carpeta o un proyecto. Los perfiles de datos contienen métricas y metadatos sobre tus datos, y te ayudan a determinar dónde residen los datos sensibles y de alto riesgo. La Protección de datos sensibles informa estas métricas en varios niveles de detalle. Para obtener información sobre los tipos de datos que puedes analizar, consulta Recursos compatibles.

Acerca de Dataplex Universal Catalog y Data Catalog

Dataplex Universal Catalog es un Google Cloud servicio que unifica los datos distribuidos y automatiza la administración y el control de esos datos. Data Catalog (obsoleto) es un servicio de administración de metadatos escalable y completamente administrado.

Data Catalog te permite usar etiquetas y plantillas de etiquetas para adjuntar metadatos comerciales a tus datos. Luego, puedes buscar y administrar todos los metadatos de tu organización o proyecto en un servicio unificado. Para obtener más información, consulta Etiquetas y plantillas de etiquetas.

Cómo funciona

Si tu configuración de análisis de descubrimiento tiene habilitada la acción Enviar a Dataplex como etiquetas, Sensitive Data Protection hará lo siguiente cada vez que cree perfiles de tus datos. Esta acción solo se aplica a los perfiles nuevos y actualizados. Los perfiles existentes que no se actualicen no se enviarán a Dataplex Universal Catalog.

  1. Crea una plantilla de etiqueta privada que contiene el esquema de las etiquetas que se adjuntarán a tus tablas de BigQuery. Para obtener información sobre el nombre, el ID y la ubicación de la plantilla de etiquetas, consulta Detalles de la plantilla de etiquetas.

    Solo las principales con los roles y permisos adecuados pueden ver la plantilla de etiquetas.

  2. Crea una etiqueta para cada tabla de BigQuery de la que generas un perfil. La etiqueta se basa en la plantilla de etiqueta recién creada.

    Por ejemplo, una etiqueta resultante adjunta a una tabla puede tener los siguientes metadatos:

    Nombre visible Valor
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

Una tabla tiene dos etiquetas si se generó su perfil a través de los dos métodos siguientes:

  • Una configuración de análisis a nivel de la organización o la carpeta
  • Un parámetro de configuración de análisis a nivel del proyecto

Después de etiquetar las tablas, puedes buscar en Dataplex Universal Catalog todos los datos de tu organización o proyecto con valores de etiquetas específicos.

Detalles de la plantilla de etiquetas

El nombre de la plantilla, el ID de la plantilla y el proyecto en el que se almacena la nueva plantilla de etiquetas dependen del recurso al que pertenece la configuración del análisis.

  • Si la configuración de análisis es a nivel de la organización o de la carpeta, la plantilla de etiqueta se almacena en el contenedor del agente de servicio. El nombre de la plantilla de etiquetas es Sensitive Data Profile. Su ID de plantilla es sensitive_data_profile.
  • Si la configuración del análisis es a nivel del proyecto, la plantilla de etiqueta se almacena en el proyecto que se perfilará. El nombre de la plantilla de etiquetas es Sensitive Data Profile (Project). Su ID de plantilla es sensitive_data_profile_project.

Precios

Para obtener información sobre cómo otros servicios de Google Cloud pueden cobrarte por exportar perfiles de datos, consulta Precios de exportación de perfiles de datos.

Etiqueta automáticamente las tablas de BigQuery según los perfiles de datos

  1. Crea una configuración de análisis. Como alternativa, edita una configuración de análisis existente.

  2. En el paso Agregar acciones, asegúrate de que la opción Enviar a Dataplex como etiquetas esté activada.

    • Si creas una configuración de análisis, esta acción se habilita de forma predeterminada.
    • Si editas la configuración de un análisis, debes habilitar esta acción.

Después de que se cree el perfil de los datos y se etiqueten, puedes comenzar a buscar los datos etiquetados en Dataplex Universal Catalog.

Roles y permisos para ver etiquetas

Los resultados de la búsqueda de Dataplex Universal Catalog solo muestran los datos a los que tienes acceso. Necesitas los siguientes roles o permisos de Identity and Access Management (IAM) para buscar las etiquetas adjuntas a tus tablas de BigQuery.

Objetivo Función predefinida Permisos relevantes
Cómo ver la plantilla de etiqueta privada Visualizador de TagTemplate de Data Catalog (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
Cómo ver las etiquetas aplicadas a las tablas de BigQuery Visualizador de metadatos de BigQuery (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

Para obtener más información sobre los roles de Dataplex Universal Catalog, consulta Roles para ver etiquetas públicas y privadas.

Para obtener información sobre cómo otorgar un rol predefinido, consulta Otorga un solo rol. Si deseas usar un rol personalizado en lugar de uno predefinido, asegúrate de que el rol personalizado tenga los permisos pertinentes. Para obtener más información, consulta Crea un rol personalizado.

Busca la plantilla de etiqueta generada

  1. En la consola de Google Cloud , ve a la página Plantillas de etiquetas de Dataplex Universal Catalog.

    Ir a Plantillas de etiquetas

  2. En la lista, busca la plantilla de etiqueta. Para obtener información sobre el nombre, el ID y la ubicación de la plantilla de etiquetas, consulta Detalles de la plantilla de etiquetas.

  3. Opcional: Para encontrar la plantilla de etiquetas que se generó con una configuración de análisis de detección determinada, ingresa lo siguiente en el campo Filtro:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    Reemplaza lo siguiente:

    • PROJECT_ID: Es el ID del proyecto asociado con la configuración del análisis. Si generaste un perfil de tus datos a nivel de la organización o la carpeta, ingresa el ID del proyecto del contenedor del agente de servicio.
    • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración del análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración del análisis es para un proyecto.

Cómo encontrar la etiqueta generada para un perfil de datos de tabla determinado

  1. En la consola de Google Cloud , ve a la página Búsqueda de Dataplex Universal Catalog.

    Ir a Búsqueda

  2. En el campo Buscar, ingresa lo siguiente:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    Reemplaza lo siguiente:

    • TABLE_ID: Es el ID de la tabla para la que se generó el perfil.
    • PROJECT_ID: Es el ID del proyecto que contiene la plantilla de etiquetas. Si generaste un perfil de tus datos a nivel de la organización o la carpeta, ingresa el ID del proyecto del contenedor del agente de servicio.
    • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración del análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración del análisis es para un proyecto.
  3. En la lista que aparece, haz clic en el ID de la tabla. Aparecen los detalles de la tabla de BigQuery junto con las etiquetas Sensitive Data Profile o Sensitive Data Profile (Project) adjuntas.

    Una tabla tiene dos etiquetas si se generó su perfil a través de los dos métodos siguientes:

    • Una configuración de análisis a nivel de la organización o la carpeta
    • Un parámetro de configuración de análisis a nivel del proyecto

Para obtener información sobre cómo realizar una búsqueda a través de la API de Data Catalog, consulta Cómo buscar recursos de datos.

Ejemplos de búsquedas

En esta sección, se proporcionan ejemplos de búsquedas que puedes usar en Dataplex Universal Catalog para encontrar datos en tu organización o proyecto con valores de etiquetas específicos.

Solo puedes encontrar los datos a los que tienes acceso. El acceso a los datos se controla a través de permisos de IAM. Para obtener más información, consulta Roles y permisos para ver etiquetas en esta página.

Puedes ingresar estas consultas en la página Búsqueda de Dataplex Universal Catalog en la consola de Google Cloud .

Ir a Búsqueda

Para obtener información sobre cómo formar las consultas, consulta Sintaxis de búsqueda de Data Catalog. Para obtener información sobre cómo realizar una búsqueda a través de la API de Data Catalog, consulta Cómo buscar activos de datos.

Encuentra todas las tablas etiquetadas con la nueva plantilla de etiquetas

tag:PROJECT_ID.TAG_TEMPLATE_ID

Reemplaza lo siguiente:

  • PROJECT_ID: Es el ID del proyecto que contiene la plantilla de etiquetas. Si generaste un perfil de tus datos a nivel de la organización o la carpeta, ingresa el ID del proyecto del contenedor del agente de servicio.
  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración del análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración del análisis es para un proyecto.

Los ejemplos posteriores de esta página no incluyen el ID del proyecto, por lo que es posible que obtengas resultados asociados con varias configuraciones de análisis de descubrimiento. Para limitar los resultados a una configuración de análisis en particular, agrega el ID del proyecto a la consulta, como se muestra en este ejemplo.

Encuentra todas las tablas que se perfilaron por última vez antes de una fecha determinada.

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración del análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración del análisis es para un proyecto.
  • DATE: Una fecha en el formato YYYY-MM-DD, por ejemplo, 2023-01-15.

Cómo encontrar todas las tablas con una puntuación de sensibilidad determinada a nivel de la tabla

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración del análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración del análisis es para un proyecto.
  • SENSITIVITY_SCORE: uno de HIGH, MODERATE o LOW.

Para obtener más información, consulta Niveles de sensibilidad y riesgo de datos.

Cómo encontrar todas las tablas con un nivel de riesgo de datos determinado

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración del análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración del análisis es para un proyecto.
  • DATA_RISK_LEVEL: uno de HIGH, MODERATE o LOW.

Para obtener más información, consulta Niveles de sensibilidad y riesgo de datos.

Encuentra todas las tablas que contienen un Infotipo previsto determinado

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración del análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración del análisis es para un proyecto.
  • INFOTYPE: El Infotipo, por ejemplo, PERSON_NAME.

Para obtener una lista de todos los Infotipos integrados, consulta la referencia del detector de Infotipos.

Para obtener más información, consulta Predicted infoType en la referencia de Metrics.

Encuentra todas las tablas que contienen parcialmente un Infotipo determinado

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración del análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración del análisis es para un proyecto.
  • INFOTYPE: El Infotipo, por ejemplo, PERSON_NAME.

Para obtener una lista de todos los Infotipos integrados, consulta la referencia del detector de Infotipos.

Para obtener más información, consulta Otros infoTypes en la referencia de Metrics.

Encuentra todas las tablas que contienen una columna determinada con un Infotipo predicho determinado

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración del análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración del análisis es para un proyecto.
  • COLUMN_NAME: Es el nombre de la columna en la tabla de BigQuery.
  • INFOTYPE: El Infotipo, por ejemplo, PERSON_NAME.

Para obtener una lista de todos los Infotipos integrados, consulta la referencia del detector de Infotipos.

Para obtener más información, consulta Predicted infoType en la referencia de Metrics.

Encuentra todas las tablas que contienen una columna determinada con una puntuación de sensibilidad a nivel de la columna determinada

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: sensitive_data_profile si la configuración del análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración del análisis es para un proyecto.
  • COLUMN_NAME: Es el nombre de la columna en la tabla de BigQuery.
  • SENSITIVITY_SCORE: uno de HIGH, MODERATE o LOW.

Para obtener más información, consulta Niveles de sensibilidad y riesgo de datos.

Valores de etiquetas truncados

Si los datos del encabezado de columna de una tabla de BigQuery superan los 10 MB, es posible que la etiqueta resultante muestre [TRUNCATED] en el campo Column Insights o Column Sensitivity. En este caso, te recomendamos que vayas a la Protección de datos sensibles para revisar el perfil de datos de la tabla y los perfiles de datos de las columnas asociadas.