Cloud Data Loss Prevention (Cloud DLP) ahora es parte de Sensitive Data Protection. El nombre de la API sigue siendo el mismo: API de Cloud Data Loss Prevention (API de DLP). Para obtener información sobre los servicios que conforman la protección de datos sensibles, consulta la descripción general de la protección de datos sensibles.

Se usó la API de Cloud Translation para traducir esta página.

Crea copias desidentificadas de los datos almacenados en Cloud Storage con la API

En esta página, se describe cómo inspeccionar un recurso de Cloud Storage y crear copias anonimizadas de los datos con la API de Cloud Data Loss Prevention.

Esta operación ayuda a garantizar que los archivos que usas en tus procesos comerciales no contengan datos sensibles, como información de identificación personal (PII). La Protección de datos sensibles puede inspeccionar archivos en un bucket de Cloud Storage para detectar datos sensibles y crear copias desidentificadas de esos archivos en un bucket independiente. Luego, puedes usar las copias anonimizadas en tus procesos comerciales.

Para obtener más información sobre esta función, consulta Desidentificación de datos sensibles en Cloud Storage.

Antes de comenzar

En esta página, se supone lo siguiente:

Ya habilitaste la facturación.

Aprende a habilitar la facturación
Habilitaste Sensitive Data Protection.

Habilitar la protección de datos sensibles
Tienes un bucket de Cloud Storage con datos que deseas anonimizar.
Sabes cómo enviar una solicitud HTTP a la API de DLP. Para obtener más información, consulta Inspecciona texto sensible con la API de DLP.

Obtén información sobre las limitaciones y los puntos a tener en cuenta para esta operación.

La inspección de almacenamiento requiere el siguiente permiso de OAuth: https://www.googleapis.com/auth/cloud-platform. Para obtener más información, consulta Autenticación en la API de DLP.

Roles de IAM obligatorios

Si todos los recursos para esta operación están en el mismo proyecto, es suficiente con el rol de agente de servicio de la API de DLP (roles/dlp.serviceAgent) en el agente de servicio. Con ese rol, puedes hacer lo siguiente:

Crea el trabajo de inspección
Lee los archivos del directorio de entrada.
Escribe los archivos desidentificados en el directorio de salida
Escribe los detalles de la transformación en una tabla de BigQuery

Los recursos pertinentes incluyen el trabajo de inspección, las plantillas de desidentificación, el bucket de entrada, el bucket de salida y la tabla de detalles de transformación.

Si debes tener los recursos en proyectos separados, asegúrate de que el agente de servicio de tu proyecto también tenga los siguientes roles:

El rol de visualizador de objetos de Storage (roles/storage.objectViewer) en el bucket de entrada o el proyecto que lo contiene
El rol de creador de objetos de Storage (roles/storage.objectCreator) en el bucket de salida o en el proyecto que lo contiene
El rol de editor de datos de BigQuery (roles/bigquery.dataEditor) en la tabla de detalles de la transformación o en el proyecto que la contiene

Para otorgar un rol al agente de servicio, consulta Otorga un solo rol. También puedes controlar el acceso en los siguientes niveles:

Descripción general de la API

Para crear copias desidentificadas del contenido almacenado en Cloud Storage, debes configurar un trabajo de inspección que busque datos sensibles según los criterios que especifiques. Luego, dentro del trabajo de inspección, proporcionas instrucciones de anonimización en forma de una acción Deidentify.

Si solo deseas analizar un subconjunto de los archivos de tu bucket, puedes limitar los archivos que analiza el trabajo. Las opciones admitidas para los trabajos con seudoanonimización son el filtrado de archivos por tipo (FileType) y la expresión regular (FileSet).

Cuando habilitas la acción Deidentify, de forma predeterminada, Sensitive Data Protection crea copias desidentificadas (transformadas) de todos los tipos de archivos compatibles incluidos en el análisis. Sin embargo, puedes configurar el trabajo para que transforme solo un subconjunto de los tipos de archivos admitidos.

Opcional: Crea plantillas de desidentificación

Si quieres controlar cómo se transforman los hallazgos, crea las siguientes plantillas. Estas plantillas proporcionan instrucciones para transformar los hallazgos en archivos estructurados, archivos no estructurados e imágenes.

Plantilla de desidentificación: Es un DeidentifyTemplate predeterminado que se usará para archivos no estructurados, como archivos de texto de formato libre. Este tipo de DeidentifyTemplate no puede contener un objeto RecordTransformations, que solo se admite para el contenido estructurado. Si esta plantilla no está presente, Sensitive Data Protection usa el método ReplaceWithInfoTypeConfig para transformar archivos no estructurados.
Plantilla de anonimización estructurada: Es un DeidentifyTemplate que se usa para archivos estructurados, como los archivos CSV. Este DeidentifyTemplate puede contener RecordTransformations. Si esta plantilla no está presente, Sensitive Data Protection usa la plantilla de desidentificación predeterminada que creaste. Si tampoco está presente, la Protección de datos sensibles usa el método ReplaceWithInfoTypeConfig para transformar archivos estructurados.
Plantilla de ocultamiento en imágenes: Es un DeidentifyTemplate que se usará para las imágenes. Esta plantilla debe contener un objeto ImageTransformations. Si esta plantilla no está presente, Sensitive Data Protection oculta todos los hallazgos en imágenes con un cuadro negro.

Obtén más información para crear una plantilla de seudonimización.

Crea un trabajo de inspección que tenga una acción de desidentificación

El objeto DlpJob proporciona instrucciones sobre qué inspeccionar, qué tipos de datos marcar como sensibles y qué hacer con los resultados. Para desidentificar datos sensibles en un directorio de Cloud Storage, tu DlpJob debe definir, al menos, lo siguiente:

Un objeto StorageConfig, que especifica el directorio de Cloud Storage que se inspeccionará.
Un objeto InspectConfig, que contiene los tipos de datos que se deben buscar y las instrucciones de inspección adicionales para encontrar los datos sensibles.
Una acción Deidentify que contiene lo siguiente:
- Es un objeto TransformationConfig que especifica las plantillas que creaste para desidentificar datos en archivos estructurados y no estructurados. También puedes incluir la configuración para ocultar datos sensibles de imágenes.
  
  Si no incluyes un objeto TransformationConfig, la Protección de datos sensibles reemplaza los datos sensibles en el texto por su infotipo. En las imágenes, cubre los datos sensibles con un cuadro negro.
- Un objeto TransformationDetailsStorageConfig, que especifica una tabla de BigQuery en la que la Protección de datos sensibles debe almacenar detalles sobre cada transformación. Para cada transformación, los detalles incluyen una descripción, un código de éxito o error, los detalles del error, la cantidad de bytes transformados, la ubicación del contenido transformado y el nombre del trabajo de inspección en el que Protección de datos sensibles realizó la transformación. En esta tabla, no se almacena el contenido real anonimizado.
Cuando se escriben datos en una tabla de BigQuery, el uso de cuotas y la facturación se aplican al proyecto que contiene la tabla de destino.

Una vez que se desidentifica el contenido copiado, finaliza el trabajo de desidentificación. El trabajo contiene un resumen de la cantidad de veces que se aplicaron las transformaciones especificadas, que puedes recuperar con el método projects.dlpJobs.get en DlpJob. El objeto DlpJob que se devuelve incluye un objeto DeidentifyDataSourceDetails y un objeto InspectDataSourceDetails. Esos objetos contienen los resultados de una acción de Deidentify y del trabajo de inspección, respectivamente.

Si incluiste un objeto TransformationDetailsStorageConfig en tu DlpJob, se crea una tabla de BigQuery que contiene metadatos sobre los detalles de la transformación. Para cada transformación que se produce, Sensitive Data Protection escribe una fila de metadatos en la tabla. Para obtener más información sobre el contenido de la tabla, consulta Referencia de detalles de transformación.

Ejemplos de código

En los siguientes ejemplos, se muestra cómo usar la API de DLP para crear copias anonimizadas de archivos de Cloud Storage.

Método HTTP y URL

POST https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs