Calcolo di δ-presence per un set di dati

La presenza delta (δ-presenza) è una metrica che quantifica la probabilità che un individuo appartenga a un set di dati analizzato. Come per la k-mappa, puoi stimare i valori di δ-presenza utilizzando Sensitive Data Protection, che utilizza un modello statistico per stimare il set di dati di attacco.

δ-presence è in contrasto con gli altri metodi di analisi del rischio, in cui il set di dati degli attacchi è noto in modo esplicito. A seconda del tipo di dati, Sensitive Data Protection utilizza set di dati disponibili pubblicamente (ad esempio, del censimento degli Stati Uniti) o un modello statistico personalizzato (ad esempio, una o più tabelle BigQuery specificate) oppure esegue l'estrapolazione dalla distribuzione dei valori nel set di dati di input.

Questo argomento mostra come calcolare i valori di δ-presenza per un set di dati utilizzando Sensitive Data Protection. Per saperne di più sull'analisi del rischio o della δ-presenza in generale, consulta l'argomento sui concetti di analisi del rischio prima di continuare.

Prima di iniziare

Prima di continuare, assicurati di aver fatto quanto segue:

  1. Accedi al tuo Account Google.
  2. Nella console Google Cloud , nella pagina di selezione del progetto, seleziona o crea un progetto Google Cloud .
  3. Vai al selettore dei progetti
  4. Verifica che la fatturazione sia attivata per il tuo progetto Google Cloud . Scopri come verificare che la fatturazione sia attivata per il tuo progetto.
  5. Abilita Sensitive Data Protection.
  6. Abilita Sensitive Data Protection

  7. Seleziona un set di dati BigQuery da analizzare. Sensitive Data Protection stima la metrica δ-presenza eseguendo la scansione di una tabella BigQuery.
  8. Determina i tipi di set di dati che vuoi utilizzare per modellare il set di dati di attacco. Per saperne di più, consulta la pagina di riferimento per l'oggetto DeltaPresenceEstimationConfig, nonché Termini e tecniche di analisi del rischio.

Calcolare le metriche di δ-presence

Per calcolare una stima della δ-presenza utilizzando Sensitive Data Protection, invia una richiesta al seguente URL, dove PROJECT_ID indica il tuo identificatore di progetto:

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

La richiesta contiene un oggetto RiskAnalysisJobConfig, composto da quanto segue:

  • Un oggetto PrivacyMetric. È qui che specifichi che vuoi calcolare la δ-presenza specificando un oggetto DeltaPresenceEstimationConfig contenente quanto segue:

    • quasiIds[]: obbligatorio. Campi (oggetti QuasiId) considerati quasi identificatori da scansionare e utilizzare per calcolare la δ-presenza. Due colonne non possono avere lo stesso tag. Questi possono essere uno dei seguenti:

      • Un infoType: in questo modo Sensitive Data Protection utilizza il set di dati pubblico pertinente come modello statistico della popolazione, inclusi codici postali, codici regione, età e generi degli Stati Uniti.
      • Un infoType personalizzato: un tag personalizzato in cui indichi una tabella ausiliaria (un oggetto AuxiliaryTable) che contiene informazioni statistiche sui valori possibili di questa colonna.
      • Il tag inferred: se non è indicato alcun tag semantico, specifica inferred. Sensitive Data Protection deduce il modello statistico dalla distribuzione dei valori nei dati di input.
    • regionCode: un codice regione ISO 3166-1 alpha-2 che Sensitive Data Protection utilizza nella modellazione statistica. Questo valore è obbligatorio se nessuna colonna è taggata con un infoType specifico per la regione (ad esempio, un codice postale statunitense) o un codice regione.

    • auxiliaryTables[]: tabelle ausiliarie (oggetti StatisticalTable) da utilizzare nell'analisi. Ogni tag personalizzato utilizzato per taggare una colonna quasi identificativa (da quasiIds[]) deve essere presente in una sola colonna di una tabella ausiliaria.

  • Un oggetto BigQueryTable. Specifica la tabella BigQuery da analizzare includendo tutti i seguenti elementi:

    • projectId: l'ID progetto del progetto contenente la tabella.
    • datasetId: l'ID set di dati della tabella.
    • tableId: il nome della tabella.
  • Un insieme di uno o più oggetti Action che rappresentano le azioni da eseguire, nell'ordine indicato, al termine del job. Ogni oggetto Action può contenere una delle seguenti azioni:

Visualizzazione dei risultati del job di presenza δ

Per recuperare i risultati del job di analisi del rischio di presenza δ utilizzando l'API REST, invia la seguente richiesta GET alla risorsa projects.dlpJobs. Sostituisci PROJECT_ID con l'ID progetto e JOB_ID con l'identificatore del job per cui vuoi ottenere i risultati. L'ID job è stato restituito all'avvio del job e può essere recuperato anche elencando tutti i job.

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

La richiesta restituisce un oggetto JSON contenente un'istanza del job. I risultati dell'analisi si trovano all'interno della chiave "riskDetails", in un oggetto AnalyzeDataSourceRiskDetails. Per ulteriori informazioni, consulta il riferimento API per la risorsa DlpJob.

Passaggi successivi

  • Scopri come calcolare il valore di k-anonymity per un set di dati.
  • Scopri come calcolare il valore di l-diversity per un set di dati.
  • Scopri come calcolare il valore di k-map per un set di dati.