使用 Google Cloud 控制台,建立儲存在 Cloud Storage 中的去識別化資料副本

本頁說明如何使用 Google Cloud 控制台中的 Sensitive Data Protection,檢查 Cloud Storage 目錄,並建立受支援檔案的去識別化副本。

這項作業可確保您在業務程序中使用的檔案不含個人識別資訊 (PII) 等機密資料。Sensitive Data Protection 可檢查 Cloud Storage 值區中的檔案是否含有私密資料,並在另一個值區中建立這些檔案的去識別化副本。接著,您可以在業務流程中使用去識別化副本。

如要進一步瞭解將儲存空間中的資料去識別化會帶來什麼影響,請參閱將儲存空間中的私密資料去識別化

事前準備

本頁面假設您已具備以下條件:

瞭解這項作業的限制和注意事項

儲存空間檢查需要下列 OAuth 範圍: https://www.googleapis.com/auth/cloud-platform。詳情請參閱「通過 DLP API 驗證」。

必要 IAM 角色

如果這項作業的所有資源都位於同一專案中,則服務代理人的 DLP API 服務代理人角色 (roles/dlp.serviceAgent) 就已足夠。取得這個角色後,您就能:

  • 建立檢查工作
  • 讀取輸入目錄中的檔案
  • 將去識別化檔案寫入輸出目錄
  • 將轉換作業詳細資料寫入 BigQuery 資料表

相關資源包括檢查工作、去識別化範本、輸入值區、輸出值區和轉換詳細資料表。

如果必須將資源放在不同專案中,請確保專案的服務代理也具備下列角色:

  • 輸入值 bucket 或包含該 bucket 的專案,必須具備 Storage 物件檢視者角色 (roles/storage.objectViewer)。
  • 輸出內容所在值區或專案的「Storage 物件建立者」角色 (roles/storage.objectCreator)。
  • 轉換詳細資料表或所屬專案的 BigQuery 資料編輯者角色 (roles/bigquery.dataEditor)。

如要將角色授予服務代理程式,請參閱授予單一角色。您也可以在下列層級控管存取權:

總覽

如要建立 Cloud Storage 檔案的去識別化副本,請設定檢查工作,根據您指定的條件尋找私密資料。然後在檢查作業中啟用「製作去識別化副本」動作。您可以設定去識別化範本,規定 Sensitive Data Protection 轉換發現項目的方式。如果您未提供任何去識別化範本,Sensitive Data Protection 會按照「預設去識別化行為」一文所述,轉換發現項目。

如果您啟用「製作去識別化副本」動作,Sensitive Data Protection 預設會轉換掃描中包含的所有支援檔案類型。不過,您可以設定工作,只轉換部分支援的檔案類型。

選用:建立去識別化範本

如要控管發現項目的轉換方式,請建立下列範本。這些範本會提供相關指示,說明如何轉換結構化檔案、非結構化檔案和圖片中的發現項目。

  • 去識別化範本:用於非結構化檔案 (例如任意格式的文字檔) 的預設去識別化範本。這類去識別化範本不得包含記錄轉換,因為記錄轉換僅支援結構化內容。如果沒有這個範本,Sensitive Data Protection 會使用 infoType 替換方法轉換非結構化檔案。

  • 結構化去識別化範本:用於結構化檔案 (例如 CSV 檔案) 的去識別化範本。這個去識別化範本可以包含記錄轉換。如果沒有這個範本,Sensitive Data Protection 會使用您建立的預設去識別化範本。如果也沒有,Sensitive Data Protection 會使用 infoType 替代方法轉換結構化檔案。

  • 圖片遮蓋範本:用於圖片的去識別化範本。 如果沒有這個範本,機密資料保護功能會使用黑框遮蓋圖片中的所有發現項目。

瞭解如何建立去識別化範本

建立含有去識別化動作的檢查工作

  1. 前往 Google Cloud 控制台的「Create job or job trigger」(建立工作或工作觸發條件) 頁面。

    前往「建立工作或工作觸發條件」

  2. 輸入 Sensitive Data Protection 工作資訊,然後按一下「繼續」來完成各個步驟。

以下各節說明如何填寫頁面的相關部分。

選擇輸入資料

在「選擇輸入資料」部分,執行下列操作:

  1. 選用:在「Name」中,輸入檢查工作的 ID。
  2. 在「資源位置」中,選取「全球」或要儲存檢查工作的區域。
  3. 針對「Location」(位置),選取「Google Cloud Storage」
  4. 在「URL」部分,輸入輸入目錄的路徑。輸入目錄包含要掃描的資料,例如 gs://input-bucket/folder1/folder1a。如要以遞迴方式掃描輸入目錄,請在網址中加入尾端斜線,然後選取「以遞迴方式掃描」
  5. 在「取樣」部分,於「取樣方法」清單中選取「不取樣」

    如果工作和工作觸發條件設定了去識別化,就不支援取樣。

設定偵測作業

在「設定偵測作業」部分,選擇要檢查的機密資料類型。這些稱為 infoTypes。做法是從預先定義的 infoTypes 清單中選擇類型,或是選擇範本 (如果有的話)。詳情請參閱「設定偵測功能」。

新增動作

在「新增動作」部分中,執行下列操作:

  1. 開啟「建立去識別化副本」
  2. 選用:如要使用去識別化範本,請輸入預設去識別化範本的完整資源名稱 (如已建立)。
  3. 選用:如果是結構化去識別化範本,請輸入結構化檔案去識別化範本的完整資源名稱 (如已建立)。如果沒有,Sensitive Data Protection 會使用您建立的預設範本。
  4. 選用:如要使用圖片遮蓋範本,請在「圖片遮蓋範本」中輸入圖片遮蓋範本的完整資源名稱。
  5. 選用:如要讓 Sensitive Data Protection 將轉換詳細資料儲存至 BigQuery 資料表,請選取「將轉換作業詳細資料匯出至 BigQuery」,然後填寫下列欄位:

    • 專案 ID:包含 BigQuery 資料表的專案。
    • 資料集 ID:包含 BigQuery 資料表的資料集。
    • 表格 ID:Sensitive Data Protection 必須將每項轉換作業的詳細資料儲存在這個表格中。Sensitive Data Protection 會使用您提供的資料表 ID 建立這個資料表。如果未提供資料表 ID,系統會自動建立。

    這個資料表不會儲存實際的去識別化內容。

    將資料寫入 BigQuery 資料表時,費用與配額用量會計入目的地資料表所屬專案。

  6. 在「Cloud Storage output location」(Cloud Storage 輸出位置),輸入要儲存去識別化檔案的 Cloud Storage 目錄網址。 這個目錄不得與輸入目錄位於同一個 Cloud Storage 值區。

  7. 選用:在「File types」(檔案類型) 部分,選取要轉換的檔案類型。

如要進一步瞭解可新增的其他動作,請參閱「新增動作」。

排程

在「Schedule」(排程) 區段中,指定是否要將這項工作設為週期性工作:

  • 如要只執行一次掃描,請將該欄位設為「無」
  • 如要排定定期執行掃描,請按一下「建立觸發條件來定期執行工作」

詳情請參閱「排程」。

查看

  1. 在「時間表」部分中,檢查工作設定,並視需要編輯工作。

  2. 點選「建立」

如果您選擇不排定工作,Sensitive Data Protection 會立即開始執行工作。工作完成後,系統會將您重新導向至「工作詳細資料」頁面,您可以在該頁面查看檢查和去識別化作業的結果。

如果您選擇將轉換詳細資料匯出至 BigQuery 資料表,系統會填入該資料表。其中包含 Sensitive Data Protection 執行的每項轉換作業,每項轉換作業的詳細資料包括說明、成功或錯誤代碼、任何錯誤詳細資料、轉換的位元組數、轉換內容的位置,以及 Sensitive Data Protection 執行轉換作業的檢查工作名稱。這個表格不包含實際去識別化內容。

確認檔案已去識別化

  1. 在「Job details」(工作詳細資料) 頁面中,按一下「Configuration」(設定) 分頁標籤。
  2. 如要在輸出目錄中查看已去識別化的檔案,請按一下「Output bucket for de-identified Cloud Storage data」(已去識別化 Cloud Storage 資料的輸出值區) 欄位中的連結。
  3. 如要查看包含轉換詳細資料的 BigQuery 資料表,請按一下「轉換詳細資料」欄位中的連結。

    如要瞭解如何查詢 BigQuery 資料表,請參閱執行互動式查詢

後續步驟