資料去識別化

去識別化是從資料中移除識別資訊的程序。Cloud Healthcare API 會偵測 DICOM 例項FHIR 資源中的機密資料 (例如受保護的健康資訊 (PHI)),然後使用去識別化轉換來遮蔽、刪除或隱藏資料。去識別化有許多用途,包括:

  • 與非特權對象分享健康資訊
  • 從多個來源建立及分析資料集
  • 將資料匿名化,以便用於機器學習模型

去識別化總覽

去識別化作業可在下列層級執行:

  • 在資料集層級。資料集的 DICOM 儲存庫和 FHIR 儲存庫中的所有資料都會去識別化。如果資料集同時包含 DICOM 執行個體和 FHIR 資源,您可以同時將所有執行個體和資源去識別化。

    如要將敏感資料去識別化至資料集層級,請呼叫 Cloud Healthcare API datasets.deidentify 方法。
  • 在 FHIR 儲存庫層級。資料集中特定 FHIR 儲存庫中的所有資料都會經過去識別化處理。

    如要將機密資料去識別化,請在 FHIR 儲存庫層級呼叫 Cloud Healthcare API fhirStores.deidentify 方法。
  • 在 DICOM 儲存庫層級。系統會將資料集中特定 DICOM 儲存庫的所有資料去識別化。

    如要將 DICOM 儲存庫層級的敏感資料去識別化,請呼叫 Cloud Healthcare API dicomStores.deidentify 方法。

去識別化不會影響原始資料集、FHIR 儲存庫、DICOM 儲存庫或原始資料。視去識別化設定而定,作業的運作方式如下:

  • 如果您要在資料集層級去識別資料,系統會將原始資料的去識別副本寫入名為「目的地資料集」的新資料集。
  • 如果您在 DICOM 或 FHIR 儲存庫層級去識別資料,系統會將原始資料的去識別化副本寫入現有資料集的現有 DICOM 或 FHIR 儲存庫。輸出 DICOM 儲存庫和 FHIR 儲存庫分別稱為目的地 DICOM 儲存庫目的地 FHIR 儲存庫

來源資料集、FHIR 儲存庫或 DICOM 儲存庫,以及目的地資料集、FHIR 儲存庫或 DICOM 儲存庫,必須位於相同的 Google Cloud 位置。系統不支援跨多個 Google Cloud 位置去識別資料。

去識別化位置

當 Cloud Healthcare API 去識別資料時,資料可能會在與來源和目的地 FHIR 或 DICOM 儲存庫不同的位置處理。去識別化完成後,資料會儲存在與來源 FHIR 儲存庫或 DICOM 儲存庫相同的 Google Cloud 位置。

為確保資料會在與來源 FHIR 或 DICOM 儲存庫相同的位置處理,您可以在 DeidentifyConfig 中指定 useRegionalDataProcessing 選項。

在 Google Cloud 控制台中將資料去識別化

您可以在 Google Cloud 控制台中,為資料集、FHIR 儲存庫或 DICOM 儲存庫中的資料進行去識別化。詳情請參閱「在 Google Cloud 控制台中將資料去識別化 (DICOM)」和「在 Google Cloud 控制台中將資料去識別化 (FHIR)」。

DICOM 去識別化

DICOM 例項包含一組鍵/值中繼資料元素 (稱為「標記」) 和一或多張影像。deidentify 作業可移除含有機密資料的特定標記。這項作業也可以使用自動光學字元辨識 (OCR) 技術,在 DICOM 例項中包含的圖片上遮蓋燒入的文字。

如要瞭解如何將 DICOM 資料去識別化,請參閱「將 DICOM 資料去識別化」。

FHIR 去識別化

每個 FHIR 資源都是包含鍵/值元素的類似 JSON 物件。部分元素已標準化,其他則為自由文字。您可以使用 deidentify 運算來取得下列任一結果:

  • 移除資源中的特定值

  • 處理任意文字部分,只移除機密部分,其餘資料則保持原樣

如需 FHIR 資料去識別化方法的範例,請參閱「將 FHIR 資料去識別化」。