Calcolo di δ-presence per un set di dati

La presenza delta (δ-presenza) è una metrica che quantifica la probabilità che un individuo appartenga a un set di dati analizzato. Come per le mappe k, puoi stimare i valori di presenza δ utilizzando Sensitive Data Protection, che utilizza un modello statistico per stimare il set di dati di attacco.

La presenza di δ è in contrasto con gli altri metodi di analisi del rischio, in cui il set di dati sugli attacchi è noto esplicitamente. A seconda del tipo di dati, la funzionalità Protezione dei dati sensibili utilizza set di dati disponibili pubblicamente (ad esempio del censimento degli Stati Uniti) o un modello statistico personalizzato (ad esempio una o più tabelle BigQuery specificate) oppure esegue l'estrapolazione dalla distribuzione dei valori nel set di dati di input.

Questo argomento mostra come calcolare i valori di presenza δ per un set di dati utilizzando Sensitive Data Protection. Per ulteriori informazioni sulla presenza di δ o sull'analisi del rischio in generale, consulta l'argomento sui concetti di analisi del rischio prima di continuare.

Prima di iniziare

Prima di continuare, assicurati di aver eseguito quanto segue:

  1. Accedi al tuo Account Google.
  2. Nella console Google Cloud, nella pagina del selettore di progetti, seleziona o crea un progetto Google Cloud.
  3. Vai al selettore dei progetti
  4. Verifica che la fatturazione sia attivata per il tuo progetto Google Cloud. Scopri come verificare che la fatturazione sia attivata per il tuo progetto.
  5. Attiva Sensitive Data Protection.
  6. Abilita Sensitive Data Protection

  7. Seleziona un set di dati BigQuery da analizzare. La funzionalità Protezione dei dati sensibili stima la metrica di presenza δ eseguendo la scansione di una tabella BigQuery.
  8. Determina i tipi di set di dati che vuoi utilizzare per modellare il set di dati di attacco. Per ulteriori informazioni, consulta la pagina di riferimento dell'oggetto DeltaPresenceEstimationConfig e i termini e le tecniche di analisi del rischio.

Calcola le metriche δ-presence

Per calcolare una stima della presenza di δ utilizzando Sensitive Data Protection, invia una richiesta al seguente URL, dove PROJECT_ID indica l'identificatore del progetto:

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

La richiesta contiene un oggetto RiskAnalysisJobConfig composto da quanto segue:

  • Un oggetto PrivacyMetric. Qui specifichi che vuoi calcolare la presenza δ specificando un oggetto DeltaPresenceEstimationConfig contenente quanto segue:

    • quasiIds[]: obbligatorio. Campi (oggetti QuasiId) considerati quasi identificatori da scansionare e utilizzare per calcolare δ-presence. Non è possibile assegnare lo stesso tag a due colonne. Può trattarsi di uno dei seguenti:

      • Un infoType: in questo modo, Sensitive Data Protection utilizza il set di dati pubblico pertinente come modello statistico della popolazione, inclusi i codici postali, i codici regionali, le età e i generi degli Stati Uniti.
      • Un infoType personalizzato: un tag personalizzato in cui indichi una tabella ausiliaria (un AuxiliaryTable oggetto) che contiene informazioni statistiche sui possibili valori di questa colonna.
      • Il tag inferred: se non è indicato alcun tag semantico, specifica inferred. Sensitive Data Protection deducono il modello statistico dalla distribuzione dei valori nei dati di input.
    • regionCode: un codice regione ISO 3166-1 alpha-2 da utilizzare nella creazione di modelli statistici per Sensitive Data Protection. Questo valore è obbligatorio se nessuna colonna è contrassegnata con un infoType specifico per regione (ad esempio un codice postale statunitense) o un codice regione.

    • auxiliaryTables[]: tabelle ausiliarie (oggetti StatisticalTable) da utilizzare nell'analisi. Ogni tag personalizzato utilizzato per taggare una colonna di quasi identificatori (da quasiIds[]) deve apparire in esattamente una colonna di una tabella ausiliaria.

  • Un oggetto BigQueryTable. Specifica la tabella BigQuery da analizzare includendo quanto segue:

    • projectId: l'ID del progetto contenente la tabella.
    • datasetId: l'ID set di dati della tabella.
    • tableId: il nome della tabella.
  • Un insieme di uno o più Action oggetti, che rappresentano le azioni da eseguire, nell'ordine specificato, al completamento del job. Ogni oggetto Action può contenere una delle seguenti azioni:

Visualizzazione dei risultati del job di presenza δ

Per recuperare i risultati del job di analisi del rischio di presenza di δ utilizzando l'API REST, invia la seguente richiesta GET alla risorsa projects.dlpJobs. Sostituisci PROJECT_ID con l'ID del tuo progetto e JOB_ID con l'identificatore del job per cui vuoi ottenere risultati. L'ID job è stato restituito quando hai avviato il job e può essere recuperato anche elencando tutti i job.

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

La richiesta restituisce un oggetto JSON contenente un'istanza del job. I risultati dell'analisi si trovano all'interno della chiave "riskDetails", in un oggetto AnalyzeDataSourceRiskDetails. Per ulteriori informazioni, consulta il riferimento all'API per la risorsa DlpJob.

Passaggi successivi

  • Scopri come calcolare il valore di k-anonymity per un set di dati.
  • Scopri come calcolare il valore l-diversity per un set di dati.
  • Scopri come calcolare il valore della k-map per un set di dati.