去識別化是從資料中移除識別資訊的程序。Cloud Healthcare API 會偵測 DICOM 例項和 FHIR 資源中的機密資料 (例如受保護的健康資訊 (PHI)),然後使用去識別化轉換來遮蔽、刪除或隱藏資料。去識別化有許多用途,包括:
- 與非特權對象分享健康資訊
- 從多個來源建立及分析資料集
- 將資料匿名化,以便用於機器學習模型
去識別化總覽
去識別化作業可在下列層級執行:
- 在資料集層級。資料集的 DICOM 儲存庫和 FHIR 儲存庫中的所有資料都會去識別化。如果資料集同時包含 DICOM 執行個體和 FHIR 資源,您可以同時將所有執行個體和資源去識別化。
如要將敏感資料去識別化至資料集層級,請呼叫 Cloud Healthcare APIdatasets.deidentify
方法。 - 在 FHIR 儲存庫層級。資料集中特定 FHIR 儲存庫中的所有資料都會經過去識別化處理。
如要將機密資料去識別化,請在 FHIR 儲存庫層級呼叫 Cloud Healthcare APIfhirStores.deidentify
方法。 - 在 DICOM 儲存庫層級。系統會將資料集中特定 DICOM 儲存庫的所有資料去識別化。
如要將 DICOM 儲存庫層級的敏感資料去識別化,請呼叫 Cloud Healthcare APIdicomStores.deidentify
方法。
去識別化不會影響原始資料集、FHIR 儲存庫、DICOM 儲存庫或原始資料。視去識別化設定而定,作業的運作方式如下:
- 如果您要在資料集層級去識別資料,系統會將原始資料的去識別副本寫入名為「目的地資料集」的新資料集。
- 如果您在 DICOM 或 FHIR 儲存庫層級去識別資料,系統會將原始資料的去識別化副本寫入現有資料集的現有 DICOM 或 FHIR 儲存庫。輸出 DICOM 儲存庫和 FHIR 儲存庫分別稱為目的地 DICOM 儲存庫和目的地 FHIR 儲存庫。
來源資料集、FHIR 儲存庫或 DICOM 儲存庫,以及目的地資料集、FHIR 儲存庫或 DICOM 儲存庫,必須位於相同的 Google Cloud 位置。系統不支援跨多個 Google Cloud 位置去識別資料。
去識別化位置
當 Cloud Healthcare API 去識別資料時,資料可能會在與來源和目的地 FHIR 或 DICOM 儲存庫不同的位置處理。去識別化完成後,資料會儲存在與來源 FHIR 儲存庫或 DICOM 儲存庫相同的 Google Cloud 位置。
為確保資料會在與來源 FHIR 或 DICOM 儲存庫相同的位置處理,您可以在 DeidentifyConfig
中指定 useRegionalDataProcessing
選項。
在 Google Cloud 控制台中將資料去識別化
您可以在 Google Cloud 控制台中,為資料集、FHIR 儲存庫或 DICOM 儲存庫中的資料進行去識別化。詳情請參閱「在 Google Cloud 控制台中將資料去識別化 (DICOM)」和「在 Google Cloud 控制台中將資料去識別化 (FHIR)」。
DICOM 去識別化
DICOM 例項包含一組鍵/值中繼資料元素 (稱為「標記」) 和一或多張影像。deidentify
作業可移除含有機密資料的特定標記。這項作業也可以使用自動光學字元辨識 (OCR) 技術,在 DICOM 例項中包含的圖片上遮蓋燒入的文字。
如要瞭解如何將 DICOM 資料去識別化,請參閱「將 DICOM 資料去識別化」。
FHIR 去識別化
每個 FHIR 資源都是包含鍵/值元素的類似 JSON 物件。部分元素已標準化,其他則為自由文字。您可以使用 deidentify
運算來取得下列任一結果:
移除資源中的特定值
處理任意文字部分,只移除機密部分,其餘資料則保持原樣
如需 FHIR 資料去識別化方法的範例,請參閱「將 FHIR 資料去識別化」。