En esta página se describe cómo inspeccionar un directorio de Cloud Storage y crear copias desidentificadas de los archivos admitidos mediante Protección de Datos Sensibles en la Google Cloud consola.
Esta operación ayuda a asegurarse de que los archivos que utiliza en sus procesos empresariales no contengan datos sensibles, como información personal identificable (IPI). Protección de Datos Sensibles puede inspeccionar archivos de un segmento de Cloud Storage para detectar datos sensibles y crear copias desidentificadas de esos archivos en otro segmento. Después, puede usar las copias anonimizadas en sus procesos empresariales.
Para obtener más información sobre lo que ocurre cuando desidentificas datos en el almacenamiento, consulta Desidentificación de datos sensibles en el almacenamiento.
Antes de empezar
En esta página se da por hecho lo siguiente:
Has habilitado la facturación.
Has habilitado Protección de Datos Sensibles.
Tienes un segmento de Cloud Storage con datos que quieres desidentificar.
Consulta las limitaciones y los aspectos que debes tener en cuenta para esta operación.
Para inspeccionar el almacenamiento, se necesita el siguiente permiso de OAuth:
https://www.googleapis.com/auth/cloud-platform
. Para obtener más información, consulta el artículo sobre cómo autenticarse en la API DLP.
Roles de gestión de identidades y accesos necesarios
Si todos los recursos de esta operación están en el mismo proyecto, es suficiente con el rol de agente de servicio de la API DLP (roles/dlp.serviceAgent
) en el agente de servicio. Con ese rol, puedes hacer lo siguiente:
- Crea la tarea de inspección
- Leer los archivos del directorio de entrada
- Escribir los archivos anonimizados en el directorio de salida
- Escribir los detalles de la transformación en una tabla de BigQuery
Entre los recursos pertinentes se incluyen el trabajo de inspección, las plantillas de desidentificación, el contenedor de entrada, el contenedor de salida y la tabla de detalles de transformación.
Si necesitas que los recursos estén en proyectos independientes, asegúrate de que el agente de servicio de tu proyecto también tenga los siguientes roles:
- El rol Lector de objetos de almacenamiento (
roles/storage.objectViewer
) en el segmento de entrada o en el proyecto que lo contiene. - El rol Creador de objetos de Storage
(
roles/storage.objectCreator
) en el segmento de salida o en el proyecto que lo contiene. - El rol Editor de datos de BigQuery (
roles/bigquery.dataEditor
) en la tabla de detalles de la transformación o en el proyecto que la contiene.
Para asignar un rol al agente de servicio, consulta Asignar un rol concreto. También puedes controlar el acceso a los siguientes niveles:
Información general
Para crear copias desidentificadas de tus archivos de Cloud Storage, configura una tarea de inspección que busque datos sensibles según los criterios que especifiques. A continuación, en el trabajo de inspección, habilita la acción Crear una copia anonimizada. Puedes definir plantillas de desidentificación que determinen cómo debe transformar los hallazgos Protección de Datos Sensibles. Si no proporcionas ninguna plantilla de desidentificación, Protección de Datos Sensibles transformará los hallazgos tal como se describe en Comportamiento de desidentificación predeterminado.
Si habilitas la acción Crear una copia anonimizada, de forma predeterminada, Protección de Datos Sensibles transforma todos los tipos de archivo admitidos incluidos en el análisis. Sin embargo, puede configurar el trabajo para que transforme solo un subconjunto de los tipos de archivo admitidos.
Opcional: Crear plantillas de desidentificación
Si quieres controlar cómo se transforman los resultados, crea las siguientes plantillas. Estas plantillas proporcionan instrucciones sobre cómo transformar las detecciones en archivos estructurados, archivos sin estructurar e imágenes.
Plantilla de desidentificación: plantilla de desidentificación predeterminada que se utiliza en archivos no estructurados, como archivos de texto de formato libre. Este tipo de plantilla de anonimización no puede contener transformaciones de registros, que solo se admiten en contenido estructurado. Si esta plantilla no está presente, Protección de Datos Sensibles usa el método de sustitución de infoType para transformar archivos no estructurados.
Plantilla de anonimización estructurada: plantilla de anonimización que se usa en archivos estructurados, como archivos CSV. Esta plantilla de desidentificación puede contener transformaciones de registros. Si no está presente, Protección de Datos Sensibles usa la plantilla de desidentificación predeterminada que hayas creado. Si tampoco está presente, Protección de Datos Sensibles usa el método de sustitución de infoType para transformar los archivos estructurados.
Plantilla de ocultación de imágenes: plantilla de desidentificación que se usa en imágenes. Si no está presente, Protección de Datos Sensibles oculta todos los resultados de las imágenes con un recuadro negro.
Consulte cómo crear una plantilla de anonimización.
Crear una tarea de inspección que tenga una acción de desidentificación
En la Google Cloud consola, ve a la página Crear tarea o activador de tareas.
Introduce la información del trabajo de protección de datos sensibles y haz clic en Continuar para completar cada paso.
En las siguientes secciones se describe cómo rellenar las secciones correspondientes de la página.
Elegir datos de entrada
En la sección Elegir datos de entrada, haz lo siguiente:
- Opcional: En Nombre, introduzca un identificador para el trabajo de inspección.
- En Ubicación del recurso, selecciona Global o la región en la que quieras almacenar la tarea de inspección.
- En Ubicación, selecciona Google Cloud Storage.
- En URL, introduce la ruta al directorio de entrada. El directorio de entrada contiene los datos que quieres analizar. Por ejemplo,
gs://input-bucket/folder1/folder1a
. Si quieres analizar el directorio de entrada de forma recursiva, añade una barra al final de la URL y, a continuación, selecciona Analizar de forma recursiva. En la sección Muestreo, en la lista Método de muestreo, seleccione Sin muestreo.
El muestreo no se admite en las tareas ni en los activadores de tareas configurados con anonimización.
Configurar detección
En la sección Configurar detección, elija los tipos de datos sensibles que quiera inspeccionar. Se denominan infoTypes. Puede elegir entre la lista de infoTypes predefinidos o seleccionar una plantilla, si hay alguna. Para obtener más información, consulta Configurar la detección.
Añadir acciones
En la sección Añadir acciones, haga lo siguiente:
- Activa Hacer una copia anonimizada.
- Opcional: En Plantilla de desidentificación, introduzca el nombre completo del recurso de la plantilla de desidentificación predeterminada si ha creado una.
- Opcional: En Plantilla de desidentificación estructurada, introduzca el nombre de recurso completo de la plantilla de desidentificación de archivos estructurados si ha creado alguna. Si no lo ha hecho, Protección de Datos Sensibles usará la plantilla predeterminada si ha creado una.
- Opcional: En Plantilla de ocultación de imágenes, introduzca el nombre completo del recurso de la plantilla de ocultación de imágenes si ha creado una.
Opcional: Si quiere que Protección de Datos Sensibles almacene los detalles de las transformaciones en una tabla de BigQuery, seleccione Exportar detalles de las transformaciones a BigQuery y, a continuación, rellene los siguientes campos:
- ID de proyecto: el proyecto que contiene la tabla de BigQuery.
- ID de conjunto de datos: el conjunto de datos que contiene la tabla de BigQuery.
- ID de tabla: la tabla en la que Protección de Datos Sensibles debe almacenar los detalles de cada transformación. Protección de Datos Sensibles crea esta tabla con el ID que le proporciones. Si no proporcionas un ID de tabla, el sistema creará uno automáticamente.
En esta tabla no se almacena el contenido anonimizado.
Cuando se escriben datos en una tabla de BigQuery, la facturación y el uso de cuota se aplican al proyecto que contiene la tabla de destino.
En Ubicación de salida de Cloud Storage, introduce la URL del directorio de Cloud Storage en el que quieras almacenar los archivos anonimizados. Este directorio no debe estar en el mismo segmento de Cloud Storage que el directorio de entrada.
Opcional: En Tipos de archivo, selecciona los tipos de archivos que quieras transformar.
Para obtener más información sobre otras acciones que puedes añadir, consulta Añadir acciones.
Programar
En la sección Programación, especifica si quieres que esta tarea sea periódica:
- Para ejecutar el análisis solo una vez, deja el campo con el valor Ninguno.
- Para programar análisis periódicos, haz clic en Crear un activador para que la tarea se ejecute según una programación periódica.
Para obtener más información, consulta Programación.
Revisar
En la sección Programación, revisa la configuración de la tarea y, si es necesario, edítala.
Haz clic en Crear.
Si no has programado el trabajo, Protección de Datos Sensibles empezará a ejecutarlo inmediatamente. Una vez que se haya completado el trabajo, el sistema te redirigirá a la página Detalles del trabajo, donde podrás ver los resultados de las operaciones de inspección y anonimización.
Si has elegido exportar los detalles de las transformaciones a una tabla de BigQuery, esta se rellenará. Contiene una fila por cada transformación que haya realizado Protección de Datos Sensibles. En cada transformación, se incluyen detalles como una descripción, un código de éxito o de error, los detalles del error, el número de bytes transformados, la ubicación del contenido transformado y el nombre del trabajo de inspección en el que Protección de Datos Sensibles ha realizado la transformación. Esta tabla no contiene el contenido anonimizado.
Confirmar que los archivos se han anonimizado
- En la página Detalles del trabajo, haga clic en la pestaña Configuración.
- Para ver los archivos desidentificados en el directorio de salida, haga clic en el enlace del campo Segmento de salida de los datos de Cloud Storage desidentificados.
Para ver la tabla de BigQuery que contiene los detalles de la transformación, haz clic en el enlace del campo Detalles de la transformación.
Para obtener información sobre cómo consultar una tabla de BigQuery, consulta Ejecutar consultas interactivas.
Siguientes pasos
- Más información sobre el proceso de anonimización de datos almacenados
- Consulta cómo desidentificar datos sensibles almacenados en Cloud Storage con la API DLP.
- Sigue los pasos del codelab Crear una copia desidentificada de los datos en Cloud Storage.
- Más información sobre las transformaciones de desidentificación
- Consulta cómo crear y programar tareas de inspección.