Der Prozess des Entfernens von identifizierenden Informationen aus Daten wird auch De-Identifikation genannt. Die Cloud Healthcare API erkennt sensible Daten in DICOM-Instanzen und FHIR-Ressourcen wie geschützte Gesundheitsinformationen (PHI) und verwendet dann eine De-Identifikationstransformation, um die Daten zu maskieren, zu löschen oder anderweitig zu verdecken. Die De-Identifikation hat mehrere Anwendungsfälle, darunter:
- Teilen medizinischer Daten mit nicht berechtigten Parteien
- Erstellen von Datasets aus mehreren Quellen mit anschließender Analyse
- Anonymisieren von Daten, damit sie in Modellen für maschinelles Lernen verwendet werden können
Übersicht über die De-Identifikation
Die De-Identifikation funktioniert auf folgenden Ebenen:
- Auf Dataset-Ebene. Die De-Identifikation erfolgt für alle Daten in DICOM-Speichern und FHIR-Speichern im Dataset. Wenn ein Dataset sowohl DICOM-Instanzen als auch FHIR-Ressourcen enthält, können Sie alle Instanzen und Ressourcen gleichzeitig de-identifizieren.
Rufen Sie die Cloud Healthcare API-Methodedatasets.deidentify
auf, um sensible Daten auf Dataset-Ebene zu de-identifizieren. - Auf der Ebene des FHIR-Speichers. Die De-Identifikation erfolgt für alle Daten in einem bestimmten FHIR-Speicher in einem Dataset.
Rufen Sie die Cloud Healthcare API-MethodefhirStores.deidentify
auf, um vertrauliche Daten auf FHIR-Speicherebene zu de-identifizieren - Auf DICOM-Speicherebene. Die De-Identifikation erfolgt für alle Daten in einem bestimmten DICOM-Speicher in einem Dataset.
Rufen Sie die Cloud Healthcare API-MethodedicomStores.deidentify
auf, um vertrauliche Daten auf DICOM-Speicherebene zu de-identifizieren.
Die De-Identifikation wirkt sich nicht auf das ursprüngliche Dataset, den FHIR-Speicher, den DICOM-Speicher oder die Originaldaten aus. Je nachdem, wie Sie die De-Identifikation konfigurieren, verhält sich der Vorgang so:
- Wenn Sie Daten auf Dataset-Ebene de-identifizieren, werden de-identifizierte Kopien der Originaldaten in ein neues Dataset geschrieben, das als Ziel-Dataset bezeichnet wird.
- Wenn Sie Daten auf DICOM- oder FHIR-Speicherebene de-identifizieren, werden de-identifizierte Kopien der Originaldaten in einen vorhandenen DICOM- oder FHIR-Speicher in einem vorhandenen Dataset geschrieben. Der DICOM-Ausgabespeicher und der FHIR-Speicher werden als DICOM-Zielspeicher bzw. FHIR-Zielspeicher bezeichnet.
Das Quell-Dataset, der FHIR-Speicher oder der DICOM-Speicher und das Ziel-Dataset, der FHIR-Speicher oder der DICOM-Speicher müssen sich am selben Google Cloud-Speicherort befinden. Die De-Identifikation von Daten für mehrere Google Cloud-Speicherorte wird nicht unterstützt.
Speicherort für De-Identifikation
Wenn die Cloud Healthcare API Daten de-identifiziert, können die Daten an einem anderen Standort verarbeitet als dem, an dem sich Quelle und Ziel des FHIR- oder DICOM-Speichers befindet. Nach Abschluss der De-Identifikation werden die Daten am selben Google Cloud-Speicherort wie der FHIR-oder DICOM-Quellspeicher abgelegt.
De-Identifikation von Daten in der Google Cloud Console
Sie können Daten für ein Dataset, einen FHIR-Speicher oder einen DICOM-Speicher in der Google Cloud Console de-identifizieren. Weitere Informationen finden Sie unter Daten in der Google Cloud Console de-identifizieren (DICOM) und Daten in der Google Cloud Console (FHIR) de-identifizieren.
De-Identifikation von DICOM-Daten
Eine DICOM-Instanz enthält eine Gruppe von Metadatenelementen mit Schlüssel/Wert-Paaren (auch als Tags bezeichnet) und ein oder mehrere Bilder. Der Vorgang deidentify
kann bestimmte Tags entfernen, die vertrauliche Daten enthalten. Außerdem kann die optische Zeichenerkennung (OCR) verwendet werden, um eingebrannten Text auf Bildern in DICOM-Instanzen zu entfernen.
Beispiele zum De-Identifizieren von DICOM-Daten finden Sie unter DICOM-Daten de-identifizieren.
De-Identifikation von FHIR-Daten
Jede FHIR-Ressource ist ein JSON-ähnliches Objekt, das Elemente aus Schlüssel/Wert-Paaren enthält.
Einige Elemente sind standardisiert, andere hingegen liegen als Freitext vor. Mit dem Vorgang deidentify
können Sie eines der folgenden Ergebnisse erzielen:
Bestimmte Werte in der Ressource entfernen
Abschnitte mit beliebigem Text verarbeiten, sodass nur die sensiblen Teile entfernt werden und die restlichen Daten unverändert bleiben
Beispiele zum De-Identifizieren von FHIR-Daten finden Sie unter FHIR-Daten de-identifizieren.