L-diversity es una propiedad de un conjunto de datos y una extensión de k-anonymity que mide la diversidad de los valores sensibles en cada columna en la que aparecen. Un conjunto de datos tiene la propiedad l-diversity cuando, para cada conjunto de filas con cuasidentificadores idénticos, hay por lo menos l valores distintos para cada atributo sensible.
Puede calcular el valor de l-diversidad en función de una o varias columnas o campos de un conjunto de datos. En este tema se muestra cómo calcular los valores de l-diversidad de un conjunto de datos con Protección de Datos Sensibles. Para obtener más información sobre la l-diversidad o el análisis de riesgos en general, consulta el tema sobre el concepto de análisis de riesgos antes de continuar.
Antes de empezar
Antes de continuar, asegúrate de que has hecho lo siguiente:
- Inicia sesión en tu cuenta de Google.
- En la Google Cloud consola Google Cloud , en la página del selector de proyectos, selecciona o crea un proyecto. Ir al selector de proyectos
- Comprueba que la facturación esté habilitada en tu Google Cloud proyecto. Consulta cómo confirmar que la facturación está habilitada en tu proyecto.
- Habilita Protección de Datos Sensibles. Habilitar Protección de Datos Sensibles
- Selecciona un conjunto de datos de BigQuery para analizarlo. Protección de Datos Sensibles calcula la métrica de l-diversidad analizando una tabla de BigQuery.
- Determina un identificador de campo sensible (si procede) y al menos un cuasi-identificador en el conjunto de datos. Para obtener más información, consulta Términos y técnicas de análisis de riesgos.
Calcular l-diversity
Protección de Datos Sensibles realiza un análisis de riesgos cada vez que se ejecuta un trabajo de análisis de riesgos. Primero debes crear el trabajo. Para ello, puedes usar laGoogle Cloud consola, enviar una solicitud a la API DLP o usar una biblioteca de cliente de Protección de Datos Sensibles.
Consola
En la Google Cloud consola, ve a la página Crear análisis de riesgo.
En la sección Elegir datos de entrada, especifica la tabla de BigQuery que quieres analizar. Para ello, introduce el ID del proyecto que contiene la tabla, el ID del conjunto de datos de la tabla y el nombre de la tabla.
En Métrica de privacidad que se va a calcular, selecciona Diversidad l.
En la sección ID de tarea, puedes asignar un identificador personalizado a la tarea y seleccionar una ubicación de recursos en la que Protección de Datos Sensibles tratará tus datos. Cuando hayas terminado, haz clic en Continuar.
En la sección Definir campos, especifica los campos sensibles y los cuasi-identificadores del trabajo de riesgo de l-diversidad. La protección de datos sensibles accede a los metadatos de la tabla de BigQuery que has especificado en el paso anterior e intenta rellenar la lista de campos.
- Marca la casilla correspondiente para especificar si un campo es sensible (S) o un cuasi-identificador (QI). Debes seleccionar un campo sensible y al menos un cuasi-identificador.
- Si Protección de Datos Sensibles no puede rellenar los campos, haga clic en Introducir nombre de campo para introducir manualmente uno o varios campos y definir cada uno de ellos como campo sensible o cuasidentificador. Cuando hayas terminado, haz clic en Continuar.
En la sección Añadir acciones, puede añadir acciones opcionales que se llevarán a cabo cuando se complete el trabajo de riesgo. Estas son las opciones disponibles:
- Guardar en BigQuery: guarda los resultados del análisis de riesgos en una tabla de BigQuery.
Publicar en Pub/Sub: publica una notificación en un tema de Pub/Sub.
Notificar por correo electrónico: te envía un correo con los resultados. Cuando hayas terminado, haz clic en Crear.
La tarea de análisis de riesgo de l-diversidad se inicia inmediatamente.
C#
Para saber cómo instalar y usar la biblioteca de cliente de Protección de Datos Sensibles, consulta el artículo sobre las bibliotecas de cliente de Protección de Datos Sensibles.
Para autenticarte en Protección de Datos Sensibles, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Go
Para saber cómo instalar y usar la biblioteca de cliente de Protección de Datos Sensibles, consulta el artículo sobre las bibliotecas de cliente de Protección de Datos Sensibles.
Para autenticarte en Protección de Datos Sensibles, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Para saber cómo instalar y usar la biblioteca de cliente de Protección de Datos Sensibles, consulta el artículo sobre las bibliotecas de cliente de Protección de Datos Sensibles.
Para autenticarte en Protección de Datos Sensibles, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para saber cómo instalar y usar la biblioteca de cliente de Protección de Datos Sensibles, consulta el artículo sobre las bibliotecas de cliente de Protección de Datos Sensibles.
Para autenticarte en Protección de Datos Sensibles, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
PHP
Para saber cómo instalar y usar la biblioteca de cliente de Protección de Datos Sensibles, consulta el artículo sobre las bibliotecas de cliente de Protección de Datos Sensibles.
Para autenticarte en Protección de Datos Sensibles, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Protección de Datos Sensibles, consulta el artículo sobre las bibliotecas de cliente de Protección de Datos Sensibles.
Para autenticarte en Protección de Datos Sensibles, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
REST
Para ejecutar un nuevo trabajo de análisis de riesgos para calcular la diversidad l, envía una solicitud al recurso projects.dlpJobs
, donde PROJECT_ID indica el identificador de tu proyecto:
https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs
La solicitud contiene un objeto RiskAnalysisJobConfig
, que se compone de lo siguiente:
Un objeto
PrivacyMetric
. Aquí es donde se especifica que se va a calcular la l-diversidad incluyendo un objetoLDiversityConfig
.Un objeto
BigQueryTable
. Especifica la tabla de BigQuery que quieres analizar incluyendo todos los elementos siguientes:projectId
: el ID del proyecto que contiene la tabla.datasetId
: ID del conjunto de datos de la tabla.tableId
: el nombre de la tabla.
Conjunto de uno o varios objetos
Action
que representan las acciones que se deben ejecutar, en el orden indicado, cuando se complete la tarea. Cada objetoAction
puede contener una de las siguientes acciones:SaveFindings
object: guarda los resultados del análisis de riesgos en una tabla de BigQuery.PublishToPubSub
objeto: Publica una notificación en un tema de Pub/Sub.JobNotificationEmails
Objeto: te envía un correo con los resultados.
En el objeto
LDiversityConfig
especifica lo siguiente:quasiIds[]
: conjunto de cuasi-identificadores (objetosFieldId
) que indican cómo se definen las clases de equivalencia para el cálculo de la l-diversidad. Al igual que conKAnonymityConfig
, cuando especificas varios campos, se consideran una única clave compuesta.sensitiveAttribute
: campo sensible (objetoFieldId
) para calcular el valor de l-diversidad.
En cuanto envías una solicitud a la API DLP, se inicia la tarea de análisis de riesgos.
Lista de tareas de análisis de riesgos completadas
Puedes ver una lista de los trabajos de análisis de riesgos que se han ejecutado en el proyecto actual.
Consola
Para enumerar los trabajos de análisis de riesgos que se están ejecutando y los que se han ejecutado anteriormente en la consola deGoogle Cloud , haga lo siguiente:
En la consola de Google Cloud , abre Protección de Datos Sensibles.
En la parte superior de la página, haga clic en la pestaña Trabajos y activadores de trabajos.
Haz clic en la pestaña Trabajos de riesgo.
Aparecerá la lista de tareas de riesgo.
Protocolo
Para ver una lista de las tareas de análisis de riesgos en curso y de las que se han ejecutado anteriormente, envía una solicitud GET al recurso projects.dlpJobs
. Si añade un filtro de tipo de trabajo (?type=RISK_ANALYSIS_JOB
), la respuesta se limitará a los trabajos de análisis de riesgos.
https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs?type=RISK_ANALYSIS_JOB
La respuesta que recibes contiene una representación JSON de todos los trabajos de análisis de riesgos actuales y anteriores.
Ver los resultados de un trabajo de l-diversidad
Protección de Datos Sensibles en la consola ofrece visualizaciones integradas para las tareas de l-diversidad completadas. Google Cloud Después de seguir las instrucciones de la sección anterior, en la lista de trabajos de análisis de riesgos, seleccione el trabajo del que quiera ver los resultados. Si la tarea se ha ejecutado correctamente, la parte superior de la página Detalles del análisis de riesgo tendrá este aspecto:
En la parte superior de la página se muestra información sobre el trabajo de riesgo de l-diversidad, incluido su ID y, en Contenedor, la ubicación del recurso.
Para ver los resultados del cálculo de la l-diversidad, haga clic en la pestaña L-diversidad. Para ver la configuración del trabajo de análisis de riesgos, haga clic en la pestaña Configuración.
En la pestaña L-diversidad se muestra primero el valor sensible y los cuasi-identificadores que se han usado para calcular la l-diversidad.
Gráfico de riesgos
En el gráfico Riesgo de reidentificación, se representa en el eje y el porcentaje potencial de pérdida de datos tanto de filas únicas como de combinaciones únicas de cuasi-identificadores para alcanzar, en el eje x, un valor de l-diversidad. El color del gráfico también indica el potencial de riesgo. Los tonos de azul más oscuros indican un mayor riesgo, mientras que los más claros indican un menor riesgo.
Cuanto más altos sean los valores de l-diversidad, menor será la diversidad de valores, lo que puede hacer que un conjunto de datos sea menos identificable y más seguro. Sin embargo, para conseguir valores de l-diversidad más altos, tendrías que eliminar porcentajes más altos del total de filas y combinaciones de cuasi-identificadores únicos, lo que podría reducir la utilidad de los datos. Para ver un valor de pérdida porcentual potencial específico de un valor de l-diversidad concreto, coloque el cursor sobre el gráfico. Como se muestra en la captura de pantalla, aparece una descripción emergente en el gráfico.
Para ver más detalles sobre un valor de l-diversidad específico, haz clic en el punto de datos correspondiente. Debajo del gráfico se muestra una explicación detallada y, más abajo en la página, aparece una tabla de datos de ejemplo.
Tabla de datos de ejemplo de riesgo
El segundo componente de la página de resultados de la tarea con riesgo es la tabla de datos de ejemplo. Muestra las combinaciones de cuasidentificadores de un valor de l-diversidad concreto.
La primera columna de la tabla muestra los valores de k-anonimato. Haga clic en un valor de l-diversidad para ver los datos de muestra correspondientes que habría que eliminar para alcanzar ese valor.
En la segunda columna se muestra la posible pérdida de datos de las filas únicas y las combinaciones de cuasidentificadores para alcanzar el valor de l-diversidad seleccionado, así como el número de grupos con al menos l atributos sensibles y el número total de registros.
En la última columna se muestra una muestra de los grupos que comparten una combinación de cuasi-identificador, junto con el número de registros que existen para esa combinación.
Obtener los detalles de un trabajo mediante REST
Para obtener los resultados de la tarea de análisis de riesgos de l-diversidad mediante la API REST, envía la siguiente solicitud GET al recurso projects.dlpJobs
. Sustituye PROJECT_ID por el ID de tu proyecto y JOB_ID por el identificador del trabajo del que quieras obtener resultados.
El ID de la tarea se devolvió cuando la iniciaste y también se puede obtener consultando todas las tareas.
GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID
La solicitud devuelve un objeto JSON que contiene una instancia del trabajo. Los resultados del análisis se encuentran en la clave "riskDetails"
, en un objeto AnalyzeDataSourceRiskDetails
. Para obtener más información, consulta la referencia de la API del recurso DlpJob
.
Siguientes pasos
- Consulta cómo calcular el valor de k-anonymity de un conjunto de datos.
- Consulta cómo calcular el valor k-map de un conjunto de datos.
- Consulte cómo calcular el valor de δ-presencia de un conjunto de datos.