Sensitive Data Protection utilizza tipi di informazioni, o infoType, per definire cosa analizzare. Un infoType è un tipo di dato sensibile, ad esempio nome, indirizzo email, numero di telefono, numero di identificazione, numero di carta di credito e così via.
Ogni infoType definito in Sensitive Data Protection ha un detector corrispondente. Sensitive Data Protection utilizza i rilevatori di infoType nella configurazione delle scansioni per determinare cosa ispezionare e come trasformare i risultati. I nomi dei tipi di informazioni vengono utilizzati anche per visualizzare o segnalare i risultati della scansione.
Questo argomento descrive in dettaglio gli infoType e i rilevatori di infoType e fornisce indicazioni su come utilizzare i rilevatori di infoType durante la scansione dei contenuti alla ricerca di dati sensibili utilizzando Sensitive Data Protection.
Specifica dei rilevatori di infoType
Quando configuri la protezione dei dati sensibili per analizzare i tuoi contenuti, includi i rilevatori di infoType da utilizzare nella configurazione dell'analisi.
Ad esempio, il seguente codice JSON mostra una semplice richiesta di scansione all'API DLPP. Tieni presente che il rilevatore PHONE_NUMBER
è specificato in
inspectConfig
,
che indica a Sensitive Data Protection di scansionare la stringa specificata per un
numero di telefono.
POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}
{
"item":{
"value":"My phone number is (415) 555-0890"
},
"inspectConfig":{
"includeQuote":true,
"minLikelihood":"POSSIBLE",
"infoTypes":{
"name":"PHONE_NUMBER"
}
}
}
La richiesta precedente restituisce quanto segue:
{
"result":{
"findings":[
{
"quote":"(415) 555-0890",
"infoType":{
"name":"PHONE_NUMBER"
},
"likelihood":"VERY_LIKELY",
"location":{
"byteRange":{
"start":"19",
"end":"33"
},
"codepointRange":{
"start":"19",
"end":"33"
}
},
"createTime":"2018-10-29T23:46:34.535Z"
}
]
}
}
Specifica sempre gli infoTypes nella configurazione della scansione. Se non specifichi alcun infoType, Sensitive Data Protection utilizza un elenco di infoType predefiniti. A seconda della quantità di contenuti da analizzare, la scansione per i tipi di informazioni predefiniti può richiedere troppo tempo o essere troppo costosa.
Per saperne di più su come utilizzare i rilevatori infoType per analizzare i tuoi contenuti, consulta uno degli argomenti su come fare relativi a ispezione, oscuramento o anonimizzazione.
Tipi di rilevatori di infoType
I rilevatori di tipo di informazioni (o "infoType") sono i meccanismi che Sensitive Data Protection utilizza per trovare i dati sensibili.
Sensitive Data Protection include diversi tipi di rilevatori di infoType, tutti riepilogati qui:
- I rilevatori di infoType integrati sono integrati in Sensitive Data Protection. Sono inclusi rilevatori per tipi di dati sensibili specifici per paese o regione, nonché tipi di dati applicabili a livello globale.
- I rivelatori di infoType personalizzati sono rilevatori che crei
personalmente. Esistono tre tipi di rilevatori di infoType personalizzati:
- I rilevatori di dizionari personalizzati regolari sono semplici elenchi di parole che la protezione dei dati sensibili confronta. Utilizza i rilevatori di dizionari personalizzati regolari quando hai un elenco di parole o frasi fino a diverse decine di migliaia. I rilevatori di dizionari personalizzati regolari sono preferibili se non prevedi che il tuo elenco di parole cambi in modo significativo.
- I detector di dizionari personalizzati archiviati vengono generati da Sensitive Data Protection utilizzando grandi elenchi di parole o frasi archiviati in Cloud Storage o BigQuery. Utilizza i rilevatori di dizionari personalizzati archiviati quando hai un elenco di parole o frasi di grandi dimensioni, fino a decine di milioni.
- I rilevatori di espressioni regolari (regex) consentono a Sensitive Data Protection di rilevare le corrispondenze in base a un pattern di espressione regolare.
Inoltre, Sensitive Data Protection include il concetto di regole di ispezione, che ti consentono di perfezionare i risultati della scansione utilizzando quanto segue:
- Le regole di esclusione ti consentono di ridurre il numero di risultati restituiti aggiungendo regole a un rilevatore infoType integrato o personalizzato.
- Le regole per hotword ti consentono di aumentare la quantità o modificare il valore di probabilità dei risultati restituiti aggiungendo regole a un rilevatore infoType integrato o personalizzato.
Rilevatori di infoType integrati
I rilevatori di infoType integrati sono integrati in Sensitive Data Protection e
includono rilevatori per tipi di dati sensibili specifici per paese o regione, come
il Numéro d'Inscription au Répertoire (NIR) francese (FRANCE_NIR
), il numero di patente di guida
del Regno Unito (UK_DRIVERS_LICENSE_NUMBER
) e il numero di previdenza sociale
degli Stati Uniti (US_SOCIAL_SECURITY_NUMBER
). Includono anche tipi di dati applicabili a livello globale, come
il nome di una persona (PERSON_NAME
), i numeri di telefono (PHONE_NUMBER
),
gli indirizzi email (EMAIL_ADDRESS
) e i numeri di carte di credito
(CREDIT_CARD_NUMBER
).Per rilevare i contenuti corrispondenti agli infoType,
Sensitive Data Protection utilizza varie tecniche, tra cui la corrispondenza
dei pattern, i checksum, il machine learning, l'analisi del contesto e altre.
L'elenco dei rilevatori di infoType integrati viene aggiornato continuamente. Per un elenco completo dei rilevatori di infoType integrati attualmente supportati, consulta Guida di riferimento per i rilevatori di infoType.
Puoi anche visualizzare un elenco completo di tutti i rilevatori di infoType integrati chiamando il metodo
infoTypes.list
di Sensitive Data Protection.
Rilevatori di infoType personalizzati
Esistono tre tipi di rilevatori di infoType personalizzati:
- Rilevatori di dizionari personalizzati regolari
- Rilevatori di dizionari personalizzati archiviati
- Espressioni regolari (regex)
Inoltre, Sensitive Data Protection include regole di ispezione che ti consentono di perfezionare i risultati della scansione aggiungendo quanto segue ai rilevatori esistenti:
Rilevatori di dizionari personalizzati regolari
Utilizza rilevatori di dizionari personalizzati regolari per trovare corrispondenze con un breve elenco (fino a diverse decine di migliaia) di parole o frasi. Un dizionario personalizzato normale può fungere da rilevatore univoco.
I rilevatori di dizionari personalizzati sono utili quando vuoi eseguire la scansione di un elenco di parole o frasi che non corrispondono facilmente a un'espressione regolare o a un rilevatore integrato. Ad esempio, supponiamo che tu voglia cercare sale conferenze che vengono comunemente chiamate con i nomi assegnati anziché con i numeri, come nomi di stati o regioni, punti di riferimento, personaggi di fantasia e così via. Puoi creare un rilevatore di dizionari personalizzato normale che contenga un elenco di questi nomi delle stanze. Sensitive Data Protection può eseguire la scansione dei tuoi contenuti per ogni nome della stanza e restituire una corrispondenza quando ne rileva uno nel contesto. Scopri di più su come Sensitive Data Protection abbina parole e frasi del dizionario nella sezione "Specifiche della corrispondenza del dizionario" della pagina Creazione di un rilevatore di dizionario personalizzato regolare.
Per maggiori dettagli sul funzionamento dei rilevatori di infoType personalizzati con dizionario regolare, nonché esempi pratici, vedi Creazione di un rilevatore di dizionari personalizzato regolare.
Rilevatori di dizionari personalizzati archiviati
Utilizza i rilevatori di dizionari personalizzati archiviati quando hai più di qualche parola o frase da scansionare o se il tuo elenco di parole o frasi cambia spesso. I rilevatori di dizionari personalizzati archiviati possono corrispondere a decine di milioni di parole o frasi.
I rilevatori di dizionari personalizzati archiviati, per loro natura di rilevatori personalizzati molto grandi, vengono creati in modo diverso rispetto ai rilevatori personalizzati di espressioni regolari e ai rilevatori di dizionari personalizzati normali. Ogni dizionario personalizzato memorizzato ha due componenti:
- Un elenco di frasi che crei e definisci. L'elenco viene archiviato come file di testo in Cloud Storage o come colonna in una tabella BigQuery.
- I file di dizionario generati, creati da Protezione dei dati sensibili in base all'elenco di frasi. I file del dizionario sono archiviati in Cloud Storage e sono costituiti da una copia dei dati delle frasi di origine più i filtri Bloom, che aiutano nella ricerca e nella corrispondenza. Non puoi modificare direttamente questi file.
Dopo aver creato un elenco di parole e utilizzato Sensitive Data Protection per generare un dizionario personalizzato, avvii o pianifichi una scansione utilizzando un rilevatore di dizionari personalizzato archiviato in modo simile ad altri rilevatori di infoType.
Per maggiori dettagli su come funzionano i rilevatori di dizionari personalizzati archiviati, nonché esempi pratici, vedi Creazione di un rilevatore di dizionari personalizzato archiviato.
Espressioni regolari
Un rilevatore di infoType personalizzato con espressione regolare (regex) ti consente di creare
i tuoi rilevatori di infoType che consentono a Sensitive Data Protection di rilevare
corrispondenze in base a un pattern regex. Ad esempio, supponiamo di avere numeri di cartelle cliniche nel formato ###-#-#####
. Potresti definire un pattern regex come il seguente:
[1-9]{3}-[1-9]{1}-[1-9]{5}
Sensitive Data Protection troverebbe corrispondenze con elementi come questo:
123-4-56789
Puoi anche specificare una probabilità da assegnare a ogni corrispondenza di infoType personalizzato. ovvero, quando Sensitive Data Protection corrisponde alla sequenza specificata, assegnerà la probabilità che hai indicato.
Ciò è utile perché se la tua espressione regolare personalizzata definisce una sequenza sufficientemente comune da poter corrispondere facilmente a un'altra sequenza casuale, non vorresti che Sensitive Data Protection etichettasse ogni corrispondenza come VERY_LIKELY
. In questo modo, la fiducia nei risultati della scansione diminuirebbe e si potrebbe causare la deidentificazione di informazioni errate.
Per saperne di più sui rilevatori di infoType personalizzati con espressioni regolari e per vederli in azione, consulta Creazione di un rilevatore di espressioni regolari personalizzato.
Regole di ispezioni
Utilizzi le regole di ispezione per perfezionare i risultati restituiti dai rilevatori infoType esistenti, integrati o personalizzati. Le regole di ispezione possono essere utili quando i risultati restituiti dalla protezione dei dati sensibili devono essere integrati in qualche modo, aggiungendo ed escludendo elementi dal rilevatore infoType esistente.
I due tipi di regole di ispezione sono:
- Regole di esclusione
- Regole hotword
Per saperne di più sulle regole di ispezione, vedi Modifica dei rilevatori infoType per perfezionare i risultati della scansione.
Regole di esclusione
Le regole di esclusione ti consentono di diminuire la quantità o la precisione dei risultati restituiti aggiungendo regole a un rilevatore infoType integrato o personalizzato. Le regole di esclusione possono aiutarti a ridurre il rumore o altri risultati indesiderati restituiti da un rilevatore infoType.
Ad esempio, se esegui la scansione di un database alla ricerca di indirizzi email, puoi aggiungere una regola di esclusione sotto forma di espressione regolare personalizzata che indica a Sensitive Data Protection di escludere tutti i risultati che terminano con "@example.com".
Le regole di esclusione non possono essere applicate agli infoType oggetto.
Per ulteriori informazioni sulle regole di esclusione, vedi Modifica dei rilevatori infoType per perfezionare i risultati della scansione.
Regole hotword
Le regole per hotword ti consentono di aumentare la quantità o l'accuratezza dei risultati restituiti aggiungendo regole a un rilevatore infoType integrato o personalizzato. Le regole per le hotword possono aiutarti a rendere meno rigide le regole di un rilevatore infoType esistente.
Ad esempio, supponiamo che tu voglia scansionare un database medico alla ricerca dei nomi dei pazienti. Puoi utilizzare il rilevatore di infoType PERSON_NAME
integrato di Sensitive Data Protection, ma in questo modo Sensitive Data Protection troverà corrispondenze per tutti i nomi di persone, non solo per i nomi dei pazienti. Per risolvere il problema, puoi includere una
regola hotwordd sotto forma di infoType personalizzato regex che cerca la parola
"paziente" entro una certa prossimità di caratteri dal primo carattere delle
potenziali corrispondenze. Puoi quindi assegnare ai risultati che corrispondono a questo pattern una
probabilità "molto probabile", poiché corrispondono ai
tuoi criteri speciali.
Per ulteriori informazioni sulle regole per le hotword, vedi Modifica dei rilevatori infoType per perfezionare i risultati della scansione.