Misurazione del rischio di reidentificazione e divulgazione

L'analisi del rischio di reidentificazione, o semplicemente analisi del rischio, è il processo di analisi dei dati sensibili per individuare le proprietà che potrebbero aumentare il rischio di identificazione dei soggetti. Puoi utilizzare i metodi di analisi del rischio prima della anonimizzazione per determinare una strategia di anonimizzazione efficace o dopo la anonimizzazione per monitorare eventuali variazioni o valori anomali.

Sensitive Data Protection può calcolare quattro metriche di rischio di reidentificazione: k-anonymity, l-diversity, k-map e δ-presence. Se non hai familiarità con l'analisi del rischio o con queste metriche, consulta l'argomento sul concetto di analisi del rischio prima di continuare.

Questa sezione fornisce una panoramica di come utilizzare Sensitive Data Protection per l'analisi del rischio dei dati strutturati utilizzando una di queste metriche, oltre ad altri argomenti correlati.

Calcolare il rischio di reidentificazione

Sensitive Data Protection può analizzare i dati strutturati archiviati nelle tabelle BigQuery e calcolare le seguenti metriche relative al rischio di reidentificazione. Fai clic sul link relativo alla metrica che vuoi calcolare per saperne di più.

Metrica Descrizione
Anonymity-k Una proprietà di un set di dati che indica la reidentificabilità dei suoi record. Un set di dati è k-anonymous se i quasi-identificatori per ogni persona nel set di dati sono identici ad almeno k - 1 altre persone presenti nel set di dati.
l-diversity Un'estensione di k-anonymity che misura anche la diversità dei valori sensibili per ogni colonna in cui si presentano. Un set di dati ha l-diversity se, per ogni insieme di righe con quasi-identificatori identici, esistono almeno l valori distinti per ciascun attributo sensibile.
k-map Calcola il rischio di reidentificazione confrontando un determinato set di dati anonimizzati di soggetti con un set di dati di reidentificazione o "attacco" più grande.
δ-presence Stima la probabilità che un determinato utente di una popolazione più grande sia presente nel set di dati. Viene utilizzato quando l'appartenenza al set di dati è essa stessa un'informazioni sensibili.

Calcolare altre statistiche

La Protezione dei dati sensibili può anche calcolare statistiche numeriche e categoriche per i dati archiviati nelle tabelle BigQuery utilizzando la stessa risorsa DlpJob delle API di analisi del rischio.

Metrica Descrizione
Statistiche numeriche Determina i valori minimo, massimo e di quantili per una singola colonna BigQuery.
Statistiche numeriche categoriche Calcola le statistiche numeriche di classificazione per i singoli bucket dell'istogramma all'interno di una colonna BigQuery.

Per ulteriori informazioni, consulta Calcolo delle statistiche numeriche e di classificazione.

Visualizzare il rischio di reidentificazione

Puoi visualizzare le metriche di rischio calcolate da Sensitive Data Protection direttamente nella console Google Cloud utilizzando Sensitive Data Protection (k-anonimia o l-diversità) o utilizzando altri prodotti Google Cloud.

Prodotto Descrizione
Looker Studio Dopo aver calcolato i valori di anonimizzazione-k per un set di dati utilizzando la Protezione dei dati sensibili, puoi visualizzare i risultati in Looker Studio. In questo modo, potrai anche comprendere meglio il rischio di reidentificazione e valutare i compromessi in termini di utilità che potresti fare se oscurare o anonimizzare i dati.