La desidentificación es el proceso mediante el cual se elimina la información de identificación de los datos. La API Cloud Healthcare detecta datos sensibles en instancias DICOM y recursos FHIR, como información médica protegida (IMP), y, a continuación, utiliza una transformación de desidentificación para enmascarar, eliminar u ocultar de cualquier otra forma los datos. La anonimización tiene varios casos prácticos, entre los que se incluyen los siguientes:
- Cuando compartes información sanitaria con partes no privilegiadas.
- Cuando creas conjuntos de datos de varias fuentes y los analizas.
- Cuando anonimizas los datos para poder utilizarlos en modelos de aprendizaje automático.
Descripción general de la desidentificación
La desidentificación funciona en los siguientes niveles:
- A nivel del conjunto de datos. La desidentificación se produce en todos los datos de los almacenes DICOM y FHIR del conjunto de datos. Si un conjunto de datos contiene instancias DICOM y recursos FHIR, puedes desidentificar todos los recursos e instancias al mismo tiempo.
Para desidentificar datos sensibles a nivel de conjunto de datos, llama al métododatasets.deidentify
de la API Cloud Healthcare. - A nivel del almacén FHIR. La desidentificación se produce en todos los datos de un almacén FHIR específico de un conjunto de datos.
Para desidentificar datos sensibles a nivel de almacén FHIR, llama al métodofhirStores.deidentify
de la API Cloud Healthcare. - A nivel de almacén DICOM. La desidentificación se produce en todos los datos de un almacén DICOM específico de un conjunto de datos.
Para desidentificar datos sensibles a nivel de almacén DICOM, llama al métododicomStores.deidentify
de la API Cloud Healthcare.
La desidentificación no afecta al conjunto de datos, al almacén FHIR, al almacén DICOM ni a los datos originales. En función de cómo configure la desidentificación, la operación se comportará de la siguiente manera:
- Si desidentificas datos a nivel de conjunto de datos, las copias desidentificadas de los datos originales se escriben en un nuevo conjunto de datos denominado conjunto de datos de destino.
- Si desidentificas datos a nivel de almacén DICOM o FHIR, se escribirán copias desidentificadas de los datos originales en un almacén DICOM o FHIR de un conjunto de datos. Los almacenes DICOM y FHIR de salida se denominan almacén DICOM de destino y almacén FHIR de destino, respectivamente.
El conjunto de datos, el almacén FHIR o el almacén DICOM de origen, así como el conjunto de datos, el almacén FHIR o el almacén DICOM de destino, deben estar en la misma Google Cloud ubicación. No se admite la anonimización de datos en varias ubicaciones. Google Cloud
Ubicación de desidentificación
Cuando la API Cloud Healthcare desidentifica datos, estos se pueden procesar en una ubicación distinta de la ubicación del almacén FHIR o DICOM de origen y destino. Una vez finalizada la desidentificación, los datos se almacenan en la misma Google Cloud ubicación que el almacén FHIR o DICOM de origen.
Para asegurarse de que los datos se tratan en la misma ubicación que el almacén FHIR o DICOM de origen, puede especificar la opción useRegionalDataProcessing
en DeidentifyConfig
.
Desidentificar datos en la Google Cloud consola
Puedes desidentificar datos de un conjunto de datos, un almacén FHIR o un almacén DICOM desde la Google Cloud consola. Para obtener más información, consulta Desidentificar datos en la consola de Google Cloud (DICOM) y Desidentificar datos en la consola de Google Cloud (FHIR).
Desidentificación de DICOM
Una instancia DICOM contiene un conjunto de elementos de metadatos de clave-valor (conocidos como etiquetas) y una o más imágenes. La operación deidentify
puede eliminar etiquetas determinadas que contengan datos sensibles. La operación también puede utilizar el reconocimiento óptico de caracteres (OCR) automatizado para redactar el texto insertado en las imágenes incluidas en las instancias DICOM.
Para ver algunos ejemplos sobre cómo desidentificar los datos DICOM, consulta Desidentificar datos DICOM.
Desidentificación de FHIR
Cada recurso FHIR es un objeto similar a JSON que contiene elementos de clave‑valor.
Algunos elementos están estandarizados, mientras que otros son de texto libre. Puedes usar la operación deidentify
para conseguir uno de los siguientes resultados:
Eliminar valores específicos del recurso.
Procesar las partes de texto arbitrarias para eliminar solo las partes sensibles y dejar tal cual el resto de los datos.
Para ver algunos ejemplos sobre cómo desidentificar los datos FHIR, consulta Desidentificar datos FHIR.