本頁說明如何使用 Google Cloud 控制台中的 Sensitive Data Protection,檢查 Cloud Storage 目錄,並建立受支援檔案的去識別化副本。
這項作業可確保您在業務程序中使用的檔案不含個人識別資訊 (PII) 等機密資料。Sensitive Data Protection 可檢查 Cloud Storage 值區中的檔案是否含有私密資料,並在另一個值區中建立這些檔案的去識別化副本。接著,您可以在業務流程中使用去識別化副本。
如要進一步瞭解將儲存空間中的資料去識別化會帶來什麼影響,請參閱將儲存空間中的私密資料去識別化。
事前準備
本頁面假設您已具備以下條件:
您已啟用計費功能。
您已啟用 Sensitive Data Protection。
您有一個 Cloud Storage bucket,其中含有要進行去識別化的資料。
瞭解這項作業的限制和注意事項。
儲存空間檢查需要下列 OAuth 範圍:
https://www.googleapis.com/auth/cloud-platform
。詳情請參閱「通過 DLP API 驗證」。
必要 IAM 角色
如果這項作業的所有資源都位於同一專案中,則服務代理人的 DLP API 服務代理人角色 (roles/dlp.serviceAgent
) 就已足夠。取得這個角色後,您就能:
- 建立檢查工作
- 讀取輸入目錄中的檔案
- 將去識別化檔案寫入輸出目錄
- 將轉換作業詳細資料寫入 BigQuery 資料表
相關資源包括檢查工作、去識別化範本、輸入值區、輸出值區和轉換詳細資料表。
如果必須將資源放在不同專案中,請確保專案的服務代理也具備下列角色:
- 輸入值 bucket 或包含該 bucket 的專案,必須具備 Storage 物件檢視者角色 (
roles/storage.objectViewer
)。 - 輸出內容所在值區或專案的「Storage 物件建立者」角色 (
roles/storage.objectCreator
)。 - 轉換詳細資料表或所屬專案的 BigQuery 資料編輯者角色 (
roles/bigquery.dataEditor
)。
如要將角色授予服務代理程式,請參閱授予單一角色。您也可以在下列層級控管存取權:
總覽
如要建立 Cloud Storage 檔案的去識別化副本,請設定檢查工作,根據您指定的條件尋找私密資料。然後在檢查作業中啟用「製作去識別化副本」動作。您可以設定去識別化範本,規定 Sensitive Data Protection 轉換發現項目的方式。如果您未提供任何去識別化範本,Sensitive Data Protection 會按照「預設去識別化行為」一文所述,轉換發現項目。
如果您啟用「製作去識別化副本」動作,Sensitive Data Protection 預設會轉換掃描中包含的所有支援檔案類型。不過,您可以設定工作,只轉換部分支援的檔案類型。
選用:建立去識別化範本
如要控管發現項目的轉換方式,請建立下列範本。這些範本會提供相關指示,說明如何轉換結構化檔案、非結構化檔案和圖片中的發現項目。
去識別化範本:用於非結構化檔案 (例如任意格式的文字檔) 的預設去識別化範本。這類去識別化範本不得包含記錄轉換,因為記錄轉換僅支援結構化內容。如果沒有這個範本,Sensitive Data Protection 會使用 infoType 替換方法轉換非結構化檔案。
結構化去識別化範本:用於結構化檔案 (例如 CSV 檔案) 的去識別化範本。這個去識別化範本可以包含記錄轉換。如果沒有這個範本,Sensitive Data Protection 會使用您建立的預設去識別化範本。如果也沒有,Sensitive Data Protection 會使用 infoType 替代方法轉換結構化檔案。
圖片遮蓋範本:用於圖片的去識別化範本。 如果沒有這個範本,機密資料保護功能會使用黑框遮蓋圖片中的所有發現項目。
瞭解如何建立去識別化範本。
建立含有去識別化動作的檢查工作
前往 Google Cloud 控制台的「Create job or job trigger」(建立工作或工作觸發條件) 頁面。
輸入 Sensitive Data Protection 工作資訊,然後按一下「繼續」來完成各個步驟。
以下各節說明如何填寫頁面的相關部分。
選擇輸入資料
在「選擇輸入資料」部分,執行下列操作:
- 選用:在「Name」中,輸入檢查工作的 ID。
- 在「資源位置」中,選取「全球」或要儲存檢查工作的區域。
- 針對「Location」(位置),選取「Google Cloud Storage」。
- 在「URL」部分,輸入輸入目錄的路徑。輸入目錄包含要掃描的資料,例如
gs://input-bucket/folder1/folder1a
。如要以遞迴方式掃描輸入目錄,請在網址中加入尾端斜線,然後選取「以遞迴方式掃描」。 在「取樣」部分,於「取樣方法」清單中選取「不取樣」。
如果工作和工作觸發條件設定了去識別化,就不支援取樣。
設定偵測作業
在「設定偵測作業」部分,選擇要檢查的機密資料類型。這些稱為 infoTypes。做法是從預先定義的 infoTypes 清單中選擇類型,或是選擇範本 (如果有的話)。詳情請參閱「設定偵測功能」。
新增動作
在「新增動作」部分中,執行下列操作:
- 開啟「建立去識別化副本」。
- 選用:如要使用去識別化範本,請輸入預設去識別化範本的完整資源名稱 (如已建立)。
- 選用:如果是結構化去識別化範本,請輸入結構化檔案去識別化範本的完整資源名稱 (如已建立)。如果沒有,Sensitive Data Protection 會使用您建立的預設範本。
- 選用:如要使用圖片遮蓋範本,請在「圖片遮蓋範本」中輸入圖片遮蓋範本的完整資源名稱。
選用:如要讓 Sensitive Data Protection 將轉換詳細資料儲存至 BigQuery 資料表,請選取「將轉換作業詳細資料匯出至 BigQuery」,然後填寫下列欄位:
- 專案 ID:包含 BigQuery 資料表的專案。
- 資料集 ID:包含 BigQuery 資料表的資料集。
- 表格 ID:Sensitive Data Protection 必須將每項轉換作業的詳細資料儲存在這個表格中。Sensitive Data Protection 會使用您提供的資料表 ID 建立這個資料表。如果未提供資料表 ID,系統會自動建立。
這個資料表不會儲存實際的去識別化內容。
將資料寫入 BigQuery 資料表時,費用與配額用量會計入目的地資料表所屬專案。
在「Cloud Storage output location」(Cloud Storage 輸出位置),輸入要儲存去識別化檔案的 Cloud Storage 目錄網址。 這個目錄不得與輸入目錄位於同一個 Cloud Storage 值區。
選用:在「File types」(檔案類型) 部分,選取要轉換的檔案類型。
如要進一步瞭解可新增的其他動作,請參閱「新增動作」。
排程
在「Schedule」(排程) 區段中,指定是否要將這項工作設為週期性工作:
- 如要只執行一次掃描,請將該欄位設為「無」。
- 如要排定定期執行掃描,請按一下「建立觸發條件來定期執行工作」。
詳情請參閱「排程」。
查看
在「時間表」部分中,檢查工作設定,並視需要編輯工作。
點選「建立」。
如果您選擇不排定工作,Sensitive Data Protection 會立即開始執行工作。工作完成後,系統會將您重新導向至「工作詳細資料」頁面,您可以在該頁面查看檢查和去識別化作業的結果。
如果您選擇將轉換詳細資料匯出至 BigQuery 資料表,系統會填入該資料表。其中包含 Sensitive Data Protection 執行的每項轉換作業,每項轉換作業的詳細資料包括說明、成功或錯誤代碼、任何錯誤詳細資料、轉換的位元組數、轉換內容的位置,以及 Sensitive Data Protection 執行轉換作業的檢查工作名稱。這個表格不包含實際去識別化內容。
確認檔案已去識別化
- 在「Job details」(工作詳細資料) 頁面中,按一下「Configuration」(設定) 分頁標籤。
- 如要在輸出目錄中查看已去識別化的檔案,請按一下「Output bucket for de-identified Cloud Storage data」(已去識別化 Cloud Storage 資料的輸出值區) 欄位中的連結。
如要查看包含轉換詳細資料的 BigQuery 資料表,請按一下「轉換詳細資料」欄位中的連結。
如要瞭解如何查詢 BigQuery 資料表,請參閱執行互動式查詢。
後續步驟
- 進一步瞭解儲存空間中的資料去識別化程序。
- 瞭解如何使用 DLP API 將儲存在 Cloud Storage 中的機密資料去識別化。
- 逐步演練「在 Cloud Storage 中建立去識別化的資料副本」程式碼研究室。
- 進一步瞭解去識別化轉換。
- 瞭解如何建立及排定檢查工作。