「重新識別化風險分析」或簡稱「風險分析」,是指分析私密資料的過程,目的是找出哪些屬性可能會增加當事人身分暴露風險。在進行去識別化之前,您可以先使用風險分析方法,協助找出有效的去識別化策略,或在去識別化之後,監控任何變動或離群值。
Sensitive Data Protection 可以計算四種重新識別風險指標:k-anonymity、l-diversity、k-map 和 δ-presence。如果您不熟悉風險分析或上述指標,請先參閱風險分析概念主題,然後再繼續閱讀本文。
本節提供如何透過上述任何指標,將 Sensitive Data Protection 用於結構化資料風險分析的總覽,以及其他相關主題。
計算重新識別化風險
「機密資料保護」服務可以分析儲存在 BigQuery 表格中的結構化資料,並計算下列重新識別風險指標。如要瞭解詳情,請點選要計算的指標連結。
指標 | 說明 |
---|---|
k-anonymity | 資料集的一個屬性,表示資料集記錄的重新識別性。如果資料集中每個人的準識別項與資料集中至少其他 k- 1 個人相同,則這個資料集就符合 k-anonymous。 |
l-diversity | k-anonymity 的延伸技術,會另外再測量每個資料欄中機密值具有的多樣性。如果每一個資料列集合都具有相同的準識別項,而每個機密屬性都至少有 l 個不同的值,那這個資料集就具有 l-diversity。 |
k-map | 將當事人去識別化的特定資料集與更大的重新識別 (或「攻擊」) 資料集進行比較,進而計算重新識別風險。 |
δ-presence | 估算在較大規模人口中的特定使用者存在資料集中的可能性。用於資料集中的成員身分本身屬於機密資訊的情況。 |
計算其他統計資料
Sensitive Data Protection 也可以使用與風險分析 API 相同的 DlpJob
資源,計算 BigQuery 表格中儲存資料的數值和類別統計資料。
指標 | 說明 |
---|---|
數值統計資料 | 決定個別 BigQuery 資料欄的最小、最大和分位數值。 |
類別數值統計資料 | 計算 BigQuery 資料欄中個別直方圖值區的類別數值統計資料。 |
詳情請參閱「計算數值型與類別型統計資料」。
以圖表呈現重新識別風險
您可以直接在 Google Cloud 控制台中,使用 Sensitive Data Protection (k-anonymity 或 l-diversity) 將 Sensitive Data Protection 計算的風險指標視覺化,也可以使用其他Google Cloud 產品。
產品 | 說明 |
---|---|
Looker Studio | 使用 Sensitive Data Protection 計算資料集的 k 匿名值後,您可以在 Looker Studio 中以圖表呈現結果。如此一來,您也可以更充分瞭解重新識別風險,並協助評估如要將資料遮蓋或去識別化時,可能必須在實用性上做哪些取捨。 |