透過探索和檢查瞭解資料

本頁面將說明並比較兩種 Sensitive Data Protection 服務,協助您瞭解資料並啟用資料控管工作流程:探索服務檢查服務

機密資料探索

探索服務會監控貴機構的資料。這項服務會持續執行,自動探索、分類及剖析資料。探索功能可協助您瞭解所儲存資料的位置和性質,包括您可能不知道的資料資源。不明資料 (有時稱為影子資料) 通常不會經過與已知資料相同程度的資料管理和風險管理。

您可以在各種範圍設定探索功能。您可以為不同部分的資料設定不同的剖析時間表。您也可以排除不需要剖析的資料子集。

探索掃描輸出內容:資料剖析檔

探索掃描的輸出內容是一組資料設定檔,適用於範圍內的每個資料資源。舉例來說,掃描 BigQuery 或 Cloud SQL 資料時,系統會在專案、資料表和資料欄層級產生資料剖析檔。

資料剖析檔包含受剖析資源的指標和深入分析資訊。包括資料分類 (或 infoType)、機密程度、資料風險程度、資料大小、資料形狀,以及其他描述資料性質和資料安全狀態 (資料安全程度) 的元素。您可以運用資料剖析來做出明智決策,決定如何保護資料,例如在表格上設定存取政策。

假設有個名為 ccn 的 BigQuery 資料欄,其中每個資料列都包含不重複的信用卡號碼,且沒有空值。產生的資料欄層級資料剖析檔會包含下列詳細資料:

顯示名稱
Field ID ccn
Data risk High
Sensitivity High
Data type TYPE_STRING
Policy tags No
Free text score 0
Estimated uniqueness High
Estimated null proportion Very low
Last profile generated DATE_TIME
Predicted infoType CREDIT_CARD_NUMBER

此外,這個資料欄層級的設定檔是資料表層級設定檔的一部分,可提供資料位置、加密狀態等洞察資訊,以及資料表是否公開共用。您也可以在 Google Cloud 控制台中,查看資料表的 Cloud Logging 項目,以及具有資料表角色的 IAM 主體。

資料表層級的資料剖析檔,顯示資料表的指標和洞察資料,並讓您在 Logging、IAM 和 Dataplex Universal Catalog 中查看資料表。

如需資料設定檔中可用的指標和洞察資料完整清單,請參閱指標參考資料

何時使用探索功能

規劃資料風險管理方法時,建議您先進行探索。探索服務可協助您全面瞭解資料,並啟用快訊報表問題修正功能。

此外,探索服務可協助您找出可能存放非結構化資料的資源。這類資源可能需要詳盡檢查。非結構化資料的指定方式是,在 0 到 1 的範圍內,以高任意文字分數表示。

檢查機密資料

檢查服務會徹底掃描單一資源,找出每個機密資料例項。檢查作業會針對每個偵測到的執行個體產生發現

檢查工作提供豐富的設定選項,協助您找出要檢查的資料。舉例來說,您可以開啟取樣功能,將檢查的資料限制為特定列數 (適用於 BigQuery 資料) 或特定檔案類型 (適用於 Cloud Storage 資料)。您也可以指定資料的建立或修改時間範圍。

與持續監控資料的探索作業不同,檢查作業是隨選作業。不過,您可以排定週期性檢查工作,也就是工作觸發條件

檢查掃描輸出內容:發現項目

每個發現項目都包含詳細資料,例如偵測到的執行個體位置、潛在 infoType,以及發現項目與 infoType 相符的確定度 (也稱為可能性)。視設定而定,您也可以取得與發現項目相關的實際字串;在 Sensitive Data Protection 中,這個字串稱為「引號」

如要查看檢查結果中包含的完整詳細資料清單,請參閱Finding

使用檢查的時機

檢查功能適用於調查非結構化資料 (例如使用者建立的留言或評論),並找出每個個人識別資訊 (PII) 例項。如果探索掃描作業發現任何含有非結構化資料的資源,建議您對這些資源執行檢查掃描,以取得各項發現的詳細資料。

不應使用檢查功能的情況

如果符合下列兩項條件,檢查資源就沒有意義。 探索掃描可協助您判斷是否需要檢查掃描。

  • 資源中只有結構化資料。也就是說,沒有任意形式的資料欄,例如使用者留言或評論。
  • 您已瞭解該資源中儲存的 infoType。

舉例來說,假設探索掃描作業的資料剖析檔指出,某個 BigQuery 資料表沒有包含非結構化資料的資料欄,但有一個資料欄包含不重複的信用卡號。在這種情況下,檢查資料表中的信用卡號碼並無用處。檢查作業會針對資料欄中的每個項目產生結果。如果您有 100 萬列,且每列都包含 1 個信用卡號碼,檢查工作就會產生 100 萬個 CREDIT_CARD_NUMBER infoType 發現項目。在本例中,由於探索掃描已指出資料欄含有不重複的信用卡號碼,因此不需要檢查。

資料落地權、處理和儲存

探索和檢查功能都支援資料落地規定:

  • 探索服務會在資料所在位置處理資料,並將產生的資料剖析檔儲存在與剖析資料相同的區域或多區域。詳情請參閱「資料落地注意事項」。
  • 檢查 Google Cloud 儲存系統中的資料時,檢查服務會在資料所在的區域處理資料,並將檢查工作儲存在該區域。透過混合式工作或 content 方法檢查資料時,檢查服務可讓您指定處理資料的位置。詳情請參閱資料儲存方式

比較摘要:探索和檢查服務

探索 檢查
優點
  • 持續掌握機構、資料夾或專案的狀況。
  • 協助找出含有機密、高風險和非結構化資料的資源。如需洞察資料的完整清單,請參閱指標參考資料
  • 協助發掘不明資料 (或影子資料)。
  • 隨選檢查單一資源。
  • 識別受檢查資源中的每個機密資料例項。
費用
  • 執行費用估算:免費
  • 用量模式:每 GB$0.03 美元或 3 TB 的價格,以較低者為準
  • 訂閱模式 (預留容量):每個訂閱單元$2,500 美元

如果您採取用量模式且當月用量為 10 TB,費用約為$300 美元。
  • 最多 1 GB:免費
  • 1 GB 至 50 TB:每 GB$1.00 美元
  • 50 TB 至 500 TB:每 GB US$0.75
  • 超過 500 TB:每 GB$0.60 美元

每次掃描 10 TB 資料的費用約為$10,000 美元。
支援的資料來源 BigLake
BigQuery
Cloud Run 函式環境變數
Cloud Run 服務修訂版本環境變數
Cloud SQL
Cloud Storage
Vertex AI
Amazon S3
Azure Blob 儲存體
BigQuery
Cloud Storage
Datastore
混合式 (任何來源)1
支援的範圍
  • Google Cloud 機構、資料夾、專案或資料資源
  • AWS 連接器、帳戶或 S3 值區可用的所有支援資產
  • Azure 連接器、訂閱項目或 Azure Blob 儲存體容器可用的所有支援資產
單一 BigQuery 資料表、Cloud Storage bucket 或 Datastore 種類。
內建檢查範本
內建自訂 infoType
掃描輸出 所有支援資料的概要總覽 (資料剖析檔)。 受檢查資源中機密資料的具體發現項目。
將結果儲存至 BigQuery
以標記的形式傳送至 Dataplex Universal Catalog (已淘汰)
傳送至 Dataplex Universal Catalog 做為切面
將結果發布至 Security Command Center
將發現項目發布至 Google Security Operations 適用於機構層級和資料夾層級的探索
發布至 Pub/Sub
資料落地支援

1 混合式檢查的定價模式不同。詳情請參閱「檢查任意來源的資料 」一文。

後續步驟