計算資料集的 δ-presence

Delta-presence (δ-presence) 是量化個人屬於分析資料集可能性的一種指標。與 k-map 類似,您可以使用 Sensitive Data Protection 估算 δ-presence 值,這項工具會運用統計模型來估算攻擊資料集。

δ-presence 與其他風險分析方法不同,後者會明確指出攻擊資料集。Sensitive Data Protection 會根據資料類型使用可公開取得的資料集 (例如美國人口普查),或使用自訂統計模型 (例如您指定的一或多個 BigQuery 表格),或從輸入資料集中值的分佈情況進行推論。

本主題說明如何使用 Sensitive Data Protection,計算資料集的 δ-presence 值。如要進一步瞭解 δ 存在或一般風險分析,請先參閱風險分析概念主題,然後再繼續閱讀本文。

事前準備

請務必先完成下列事項再繼續操作:

  1. 登入您的 Google 帳戶。
  2. 在 Google Cloud 控制台的專案選取器頁面中,選取或建立 Google Cloud 專案。
  3. 前往專案選取器
  4. 請確認您已為 Google Cloud 專案啟用計費功能。瞭解如何確認您已啟用專案的計費功能
  5. 啟用 Sensitive Data Protection。
  6. 啟用 Sensitive Data Protection

  7. 選取要分析的 BigQuery 資料集。資訊保護功能會掃描 BigQuery 資料表,估算 δ 存在指標。
  8. 決定要用來模擬攻擊資料集的資料集類型。詳情請參閱 DeltaPresenceEstimationConfig 物件的參考頁面,以及「風險分析術語與技術」。

計算 δ-presence 指標

如要使用 Sensitive Data Protection 計算 δ 存在估計值,請將要求傳送至下列網址,其中 PROJECT_ID 表示您的專案 ID

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

要求會包含由以下項目組成的 RiskAnalysisJobConfig 物件:

  • A PrivacyMetric 物件。您可以在這裡指定要計算 δ 存在性,方法是指定包含下列項目的 DeltaPresenceEstimationConfig 物件:

    • quasiIds[]:必填。系統會掃描並使用視為準 ID 的欄位 (QuasiId 物件),計算 δ 存在性。任何兩個資料欄均不得有相同的標記。標記可以是以下任何一種:

      • infoType:這會導致 Sensitive Data Protection 使用相關公開資料集,做為人口數的統計模型,包括美國郵遞區號、地區代碼、年齡和性別。
      • 自訂 infoType:自訂標記,您可在其中指出包含這個資料欄可能值相關統計資訊的輔助資料表 (AuxiliaryTable 物件)。
      • inferred 標記:如果沒有指出語意標記,請指定 inferred。 Sensitive Data Protection 會從輸入資料中值的分佈情況推測出統計模型。
    • regionCode:可供 Sensitive Data Protection 在統計模型中使用的 ISO 3166-1 alpha-2 地區代碼。如果沒有資料欄標記為地區特定 infoType (例如美國郵遞區號) 或地區代碼,則這個值為必要。

    • auxiliaryTables[]:要在分析中使用的輔助資料表 (StatisticalTable 物件)。用來標記準識別項資料欄 (來自 quasiIds[]) 的每個自訂標記,都必須確切地顯示在一個輔助資料表的一個資料欄中。

  • BigQueryTable 物件。包含以下所有項目以指定要掃描的 BigQuery 表格:

    • projectId:包含表格的專案 ID。
    • datasetId:資料表的資料集 ID。
    • tableId:資料表名稱。
  • 一或多個 Action 物件的組合,代表完成工作時要按照指定順序執行的動作。每個 Action 物件都可包含以下其中一個動作:

查看 δ-presence 工作結果

如要使用 REST API 擷取 δ 存在風險分析工作的結果,請將下列 GET 要求傳送至 projects.dlpJobs 資源。將 PROJECT_ID 替換為專案 ID,並將 JOB_ID 替換為要取得結果的工作 ID。工作 ID 會在您啟動工作時傳回,您也可以列出所有工作來擷取 ID。

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

要求會傳回包含工作例項的 JSON 物件。分析結果位於 "riskDetails" 鍵中,以 AnalyzeDataSourceRiskDetails 物件的形式呈現。詳情請參閱 DlpJob 資源的 API 參考資料。

後續步驟

  • 瞭解如何計算資料集的 k-anonymity 值。
  • 瞭解如何計算資料集的 l-diversity 值。
  • 瞭解如何計算資料集的 k-map 值。