測量重新識別與揭露風險

「重新識別化風險分析」或簡稱「風險分析」,是指分析私密資料的過程,目的是找出哪些屬性可能會增加當事人身分暴露風險。在進行去識別化之前,您可以先使用風險分析方法,協助找出有效的去識別化策略,或在去識別化之後,監控任何變動或離群值。

Sensitive Data Protection 可以計算四種重新識別風險指標:k-anonymity、l-diversity、k-map 和 δ-presence。如果您不熟悉風險分析或上述指標,請先參閱風險分析概念主題,然後再繼續閱讀本文。

本節提供如何透過上述任何指標,將 Sensitive Data Protection 用於結構化資料風險分析的總覽,以及其他相關主題。

計算重新識別化風險

「機密資料保護」服務可以分析儲存在 BigQuery 表格中的結構化資料,並計算下列重新識別風險指標。如要瞭解詳情,請點選要計算的指標連結。

指標 說明
k-anonymity 資料集的一個屬性,表示資料集記錄的重新識別性。如果資料集中每個人的準識別項與資料集中至少其他 k- 1 個人相同,則這個資料集就符合 k-anonymous。
l-diversity k-anonymity 的延伸技術,會另外再測量每個資料欄中機密值具有的多樣性。如果每一個資料列集合都具有相同的準識別項,而每個機密屬性都至少有 l 個不同的值,那這個資料集就具有 l-diversity。
k-map 將當事人去識別化的特定資料集與更大的重新識別 (或「攻擊」) 資料集進行比較,進而計算重新識別風險。
δ-presence 估算在較大規模人口中的特定使用者存在資料集中的可能性。用於資料集中的成員身分本身屬於機密資訊的情況。

計算其他統計資料

Sensitive Data Protection 也可以使用與風險分析 API 相同的 DlpJob 資源,計算 BigQuery 表格中儲存資料的數值和類別統計資料。

指標 說明
數值統計資料 決定個別 BigQuery 資料欄的最小、最大和分位數值。
類別數值統計資料 計算 BigQuery 資料欄中個別直方圖值區的類別數值統計資料。

詳情請參閱「計算數值型與類別型統計資料」。

以圖表呈現重新識別風險

您可以直接在 Google Cloud 控制台中,使用 Sensitive Data Protection (k-anonymityl-diversity) 將 Sensitive Data Protection 計算的風險指標視覺化,也可以使用其他Google Cloud 產品。

產品 說明
Looker Studio 使用 Sensitive Data Protection 計算資料集的 k 匿名值後,您可以在 Looker Studio 中以圖表呈現結果。如此一來,您也可以更充分瞭解重新識別風險,並協助評估如要將資料遮蓋或去識別化時,可能必須在實用性上做哪些取捨。