Probabilità di corrispondenza

I risultati della scansione sono classificati in base alla probabilità che rappresentino una corrispondenza. La protezione dei dati sensibili utilizza una rappresentazione in bucket della probabilità, che ha lo scopo di indicare la probabilità che un dato corrisponda a un determinato infoType.

Come funziona la probabilità

Quando configuri una scansione di Sensitive Data Protection, imposti gli infoType che vuoi che Sensitive Data Protection cerchi. Per restringere i risultati della scansione, puoi impostare un livello di probabilità minimo nella richiesta.

Per ogni potenziale corrispondenza (risultato) rilevata durante la scansione, Sensitive Data Protection assegna un livello di probabilità. Il livello di probabilità di un risultato descrive la probabilità che il risultato corrisponda a un infoType che stai cercando. Ad esempio, Sensitive Data Protection potrebbe assegnare una probabilità di LIKELY a un risultato che sembra un indirizzo email.

Quando Sensitive Data Protection restituisce i risultati, filtra tutti i risultati con una probabilità inferiore al livello di probabilità minimo impostato nella richiesta. Ad esempio, se imposti la probabilità minima su POSSIBLE, ottieni solo i risultati valutati come POSSIBLE, LIKELY e VERY_LIKELY. Se imposti la probabilità minima su VERY_LIKELY, ottieni il numero più basso di risultati.

Livelli di probabilità

La tabella seguente elenca i possibili valori di probabilità che Sensitive Data Protection può assegnare a un risultato.

ENUM Descrizione
VERY_UNLIKELY Caratterizzato da quanto segue:
  • Un segnale debole.
  • Assenza di indizi contestuali.
  • Indicatori negativi per un determinato infoType.
UNLIKELY Caratterizzato da quanto segue:
  • Uno o più indicatori deboli.
  • Un segnale più forte per un altro infoType.
POSSIBLE Caratterizzato da quanto segue:
  • Uno o più indicatori per un determinato infoType. Gli indicatori possono includere i checksum superati.
  • Mancanza di un indizio contestuale forte e di una formattazione specifica e univoca.
LIKELY Caratterizzato da uno o più indicatori forti per un determinato infoType. Gli indicatori possono includere il superamento dei checksum, indizi contestuali forti e una formattazione specifica e univoca.
VERY_LIKELY Caratterizzati da molti indicatori forti per un determinato infoType. Gli indicatori possono includere il superamento dei checksum, indizi contestuali forti e una formattazione specifica e univoca.

Scelta di un livello di probabilità minimo per i risultati della scansione

In generale, quando imposti un livello di probabilità minimo più alto nella richiesta di Sensitive Data Protection, i risultati hanno un numero inferiore di falsi positivi (a volte chiamati rumore). Tuttavia, i risultati possono anche escludere più veri positivi. La scelta di un livello di probabilità minimo comporta la ricerca del giusto equilibrio tra richiamo e precisione.

Ad esempio, supponiamo che in un documento siano presenti 10 indirizzi e la protezione dei dati sensibili ne abbia identificati 5. Tuttavia, tra i risultati identificati da Sensitive Data Protection, ci sono in realtà solo 4 indirizzi.

  • Il richiamo è il numero di istanze di veri positivi rispetto al numero totale di istanze pertinenti. In questo esempio, il richiamo è 4/10.
  • La precisione è il numero di istanze di veri positivi rispetto al numero totale di istanze identificate da Sensitive Data Protection. In questo esempio, la precisione è 4/5.

In questo esempio, la precisione è elevata, ma il richiamo è relativamente basso.

Il livello di probabilità minimo che imposti influisce sul livello di richiamo e precisione che ottieni nei risultati della scansione. La tabella seguente descrive quando ogni livello di probabilità minima è utile e come variano il richiamo e la precisione a ogni livello.

Livello di probabilità minimo Descrizione
LIKELIHOOD_UNSPECIFIED Valore predefinito; uguale a POSSIBLE.
VERY_UNLIKELY Utile se hai bisogno del massimo richiamo. Questo livello di probabilità minimo genera il maggior rumore.
UNLIKELY Utile se hai bisogno di un richiamo più elevato. Questo livello minimo di probabilità genera del rumore.
POSSIBLE Utile se vuoi un equilibrio tra precisione e richiamo.
LIKELY Utile se hai bisogno di una maggiore precisione a scapito di un po' di richiamo.
VERY_LIKELY Utile se vuoi la massima precisione a scapito del richiamo.

Probabilità minima predefinita

Se non imposti una probabilità minima nella richiesta o se la imposti su LIKELIHOOD_UNSPECIFIED, Sensitive Data Protection restituisce solo i risultati con una probabilità pari o superiore a POSSIBLE.