將 Cloud Storage 中的機密資料去識別化

本頁說明 Sensitive Data Protection 如何建立儲存在 Cloud Storage 中的資料副本,並將副本去識別化。此外,本文也列出這項作業的限制,以及開始作業前應考量的重點。

如要瞭解如何使用 Sensitive Data Protection 建立 Cloud Storage 資料的去識別化副本,請參閱下列文章:

關於去識別化

去識別化是移除資料中識別資訊的程序。目標是讓您在符合隱私權規定的前提下,使用及分享健康、財務或人口統計資訊等個人資訊。如要進一步瞭解去識別化,請參閱將私密資料去識別化

如要進一步瞭解 Sensitive Data Protection 中的去識別化轉換,請參閱轉換參考資料。如要進一步瞭解 Sensitive Data Protection 如何遮蓋圖片中的機密資料,請參閱圖片檢查和遮蓋

這項功能的使用時機

如果業務作業使用的檔案含有個人識別資訊 (PII) 等私密資料,這項功能就非常實用。這項功能可讓您在業務流程中使用及分享資訊,同時隱藏敏感資料。

去識別化程序

本節說明如何使用私密資料保護服務,將 Cloud Storage 中的內容去識別化。

如要使用這項功能,請建立檢查作業 (DlpJob),並設定為建立 Cloud Storage 檔案的去識別化副本。Sensitive Data Protection 會掃描指定位置的檔案,並根據您的設定檢查檔案。檢查每個檔案時,Sensitive Data Protection 會去識別化符合機密資料條件的資料,然後將內容寫入新檔案。新檔案的名稱一律與原始檔案相同。並將這個新檔案儲存在您指定的輸出目錄中。如果掃描範圍包含某個檔案,但沒有任何資料符合去識別化條件,且處理過程中沒有發生錯誤,系統就會將該檔案複製到輸出目錄,且不會進行任何變更。

您設定的輸出目錄必須位於 Cloud Storage bucket 中,且該 bucket 與包含輸入檔案的 bucket 不同。在輸出目錄中,資料遺失防護功能會建立與輸入目錄檔案結構相同的檔案結構。

舉例來說,假設您設定下列輸入和輸出目錄:

  • 輸入目錄:gs://input-bucket/folder1/folder1a
  • 輸出目錄:gs://output-bucket/output-directory

去識別化期間,Sensitive Data Protection 會將去識別化檔案儲存在 gs://output-bucket/output-directory/folder1/folder1a 中。

如果輸出目錄中有名稱與去識別化檔案相同的檔案,系統會覆寫該檔案。如不想覆寫現有檔案,請先變更輸出目錄,再執行這項作業。或者,您也可以考慮在輸出值區中啟用物件版本管理

原始檔案的檔案層級存取控制清單 (ACL) 會複製到新檔案,無論是否找到並去識別化機密資料都一樣。不過,如果輸出值區僅設定統一的值區層級權限,而非細微 (物件層級) 權限,ACL 就不會複製到去識別化檔案。

下圖顯示儲存在 Cloud Storage 值區中的四個檔案去識別化程序。無論 Sensitive Data Protection 是否偵測到任何機密資料,系統都會複製每個檔案。每個複製的檔案名稱都與原始檔案相同。

將儲存在 Cloud Storage 中的檔案去識別化。
Cloud Storage 中儲存的檔案去識別化 (按一下即可放大)。

定價

如需價格資訊,請參閱「檢查及轉換儲存空間中的資料」。

支援的檔案類型

「機密資料保護」服務可以將下列檔案類型群組去識別化:

  • CSV
  • 圖片
  • 文字
  • TSV

預設去識別化行為

如要定義 Sensitive Data Protection 轉換結果的方式,可以為下列類型的檔案提供去識別範本

  • 非結構化檔案,例如含有任意形式文字的文字檔
  • 結構化檔案,例如 CSV 檔案
  • 圖片

如未提供任何去識別化範本,Sensitive Data Protection 會依下列方式轉換發現項目:

  • 在非結構化和結構化檔案中,資訊保護會將所有發現項目替換為對應的 infoType,如「InfoType 替換」一節所述。
  • 在圖片中,Sensitive Data Protection 會以黑框遮蓋所有發現項目。

限制和注意事項

建立去識別化的 Cloud Storage 資料副本前,請先考量下列事項。

磁碟空間

這項作業僅支援儲存在 Cloud Storage 中的內容。

這項作業會在 Sensitive Data Protection 檢查檔案時,複製每個檔案。不會修改或移除原始內容。複製的資料會佔用與原始資料大致相同的額外磁碟空間。

儲存空間的寫入權限

由於 Sensitive Data Protection 會建立原始檔案的副本,因此專案的服務代理程式必須具備 Cloud Storage 輸出值區的寫入權限。

取樣和設定發現限制

這項作業不支援取樣。具體來說,您無法限制 Sensitive Data Protection 掃描及去識別化每個檔案的資料量。也就是說,如果您使用 Cloud Data Loss Prevention API,就無法在 DlpJobCloudStorageOptions 物件中使用 bytesLimitPerFilebytesLimitPerFilePercent

此外,您無法控管要傳回的調查結果數量上限。 如果您使用 DLP API,就無法在 DlpJob 中設定 FindingLimits 物件。

檢查資料的規定

執行檢查工作時,Sensitive Data Protection 會先根據檢查設定檢查資料,再執行去識別化作業。無法略過檢查程序。

使用檔案擴充功能的規定

Sensitive Data Protection 會根據副檔名,判斷輸入目錄中檔案的類型。即使檔案類型受支援,系統也可能無法去識別化沒有副檔名的檔案。

略過的檔案

在儲存空間中將檔案去識別化時,機密資料保護服務會略過下列檔案:

  • 超過 60,000 KB 的檔案。如果檔案超過這個大小上限,建議您將檔案分成數個較小的檔案。
  • 本頁「支援的附件檔案類型」一節未列出的檔案類型。
  • 您刻意從去識別化設定排除的檔案類型。如果您使用 DLP API,系統會略過您從 DlpJobDeidentify 動作的 file_types_to_transform 欄位排除的檔案類型。
  • 發生轉換錯誤的檔案。

去識別化資料表中的輸出資料列順序

我們無法保證去識別化資料表中的資料列順序與原始資料表中的資料列順序一致。如要比較原始資料表和去識別化資料表,您無法依賴列號來找出對應的資料列。如要比較資料表中的資料列,請務必使用專屬 ID 識別每筆記錄。

暫時性金鑰

如果選擇加密編譯方法做為轉換方法,您必須先使用 Cloud Key Management Service 建立包裝金鑰。然後在去識別化範本中提供該金鑰。不支援暫時性 (原始) 金鑰。

後續步驟