Tipi di file
La tabella seguente mostra i tipi di file supportati da Sensitive Data Protection, i relativi limiti di scansione, le modalità di scansione e il supporto della trasformazione.
Sensitive Data Protection si basa sulle estensioni dei file e sui tipi di contenuti multimediali (MIME) per identificare i tipi di file da analizzare e le modalità di analisi da applicare. Ad esempio, la protezione dei dati sensibili esegue la scansione di un file .txt
in modalità di testo normale, anche se il file è strutturato come file CSV, che in genere viene esaminato in modalità di analisi strutturata.
Tipo di file | Estensioni dei file | Limiti | Modalità di scansione | Assistenza per la trasformazione |
---|---|---|---|---|
Apache Avro |
avro |
Limiti di Avro | Analisi strutturata | |
Comma- or tab-separated values | csv, tsv | Analisi strutturata | Anonimizza i contenuti | |
PDF |
Limiti per i PDF | Analisi intelligente dei documenti | ||
Text |
asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, jsonl, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml. |
Testo normale | Anonimizza i contenuti | |
Microsoft Word |
docx, dotx, docm, dotm |
Limiti di parole | Analisi intelligente dei documenti | |
Microsoft Excel |
xlsx, xlsm, xltx, xltm |
Limiti di Excel | Analisi intelligente dei documenti | |
Microsoft Powerpoint |
pptx, pptm, potx, potm |
Limiti di PowerPoint | Analisi intelligente dei documenti | |
Image |
bmp, gif, jpg, jpeg, jpe, png |
OCR | Oscuramento | |
Binary |
Tipi di file non supportati e immagini che non possono essere scansionate utilizzando il riconoscimento ottico dei caratteri (OCR). |
Binario |
Cluster di file
La tabella seguente mostra i gruppi di file supportati da Sensitive Data Protection durante la creazione di profili di dati sensibili. Un profilo dati dell'archivio file fornisce punteggi di sensibilità e rischio per i dati per ogni raccolta di file simili.
I file possono spostarsi da un cluster all'altro man mano che Sensitive Data Protection aggiunge il supporto per più tipi di file. Con l'espansione del supporto della scansione, il servizio di rilevamento potrebbe iniziare a eseguire la scansione di file che in precedenza non erano stati analizzati. La fatturazione viene effettuata come descritto in Prezzi per il rilevamento.
Tipo di file | Estensioni dei file | Limiti | Modalità di scansione | |
---|---|---|---|---|
Text |
asc, eml, html, htm, ini, json, jsonL, log, md, mkd, markdown, plist, sql, shtml, shtm, tex, txt, text, vcard, vcs, xsl, xsd |
Testo normale | ||
Source Code |
bat, brf, c, cc, cpp, cxx, c++, cs, css, dart, go, h, hh, hpp, hxx, hs,lhs,, java, js,, ocaml, m, ml,, pl, php, phtml, phtm, ps1, py, pyw, rb, rbw, rs, rc, scala, sh, sql,, wml, xml, yml, yaml, bat, vb, scpt, scr, script, cmd, vbs |
Testo normale | ||
Structured Data |
avro, csv, tsv, proto |
Analisi strutturata per file avro, csv e tsv. Analisi del testo normale per i file proto | ||
Rich Documents |
doc, docx, dotx, docm, dotm, xls, xlsx, xlsm, xltx, xltm, xls, ppt, pptx, pptm, potx, potm, pdf |
Vengono analizzati i file PDF, Microsoft Word, Excel e PowerPoint supportati di dimensioni inferiori a 30 MiB. | Analisi intelligente dei documenti | |
Images |
bmp, gif, heic, ico, jpg, jpeg, jpe, png, pm, svg, tiff, webp |
Le immagini supportate bmp, gif, jpg, jpeg, jpe, png di dimensioni inferiori a 4 MiB vengono analizzate utilizzando l'OCR nelle regioni che lo supportano. Al di fuori di queste regioni, le immagini non vengono scansionate. | OCR | |
Executables |
ac, air, app, appimage, apk, bas, bms, bin, class, cls, com, command, ctl, ctx, dca, ddf, dep, dob, dox, dll, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, wsf, widget, workflow, x86, x86_64, xap, xbe, xlm |
Non è stata eseguita la scansione | ||
Archives |
zz, zpaq, zoo, zip, zipx, yz1, xp3, xar, wim, war, uha, uca, uc, uc0, uc2, ucn, ur2, ue2, tar, gz, tgz, sqx, sitx, sit, shk, sfx, sen, sea, sda, s7z, rk, rar, qda, pit, pim, phar, pea, paq6, paq7, paq8 e varianti, pak, lzx, lzh, lha, kgb, jar, ice, hki, ha, genozip, gca, ear, dmg, dgc, dd, dar, cpt, cfs, car, cab, bh, ba, b6z, b1, arj, arc, cdx, arc, ark, apk, alz, afa, ace, 7z, a, ar, cpio, shar, run, tar, tar, 7z, ace, afa, arc, arj, b1, cab, cfs, cpt, dar, dgc, arc, lzh, lha, lzx, iso, img, ima, arc, mou, dmg, partimg, paq#*, lpaq#*, pea, pim, qda, rar, rk, shk, sit, sitx, uc, uc0, uc2, ucn, ur2, ue2, wim, swm, esd, zip, zpaq |
Al momento non è stata eseguita la scansione | ||
Multimedia |
aa, aac, aax, act, aiff, alac, amr, ape, au, awb, dss, dvf, flac, gsm, iklax, ivs, m4a, m4b, m4p, mmf, movpkg, mp3, mpc, msv, nmf, ogg, oga, mogg, opus, ra, rm, raw, rf64, sln, tta, voc, vox, wav, wma, wv, webm, 8svx, cda, webm, mkv, flv, flv, vob, ogv, ogg, drc, gif, gifv, mng, avi, MTS, M2TS, TS, mov, qt, wmv, yuv, rm, rmvb, viv, asf, amv, mp4, m4p (con DRM), m4v, mpg, mp2, mpeg, mpe, mpv, mpg, mpeg, m2v, m4v, svi, 3gp, 3g2, mxf, roq, nsv, flv, f4v, f4p, f4a, f4b |
Non è stata eseguita la scansione | ||
AI Models |
keras, pt, pth, tflite |
Al momento non è stata eseguita la scansione | ||
Unknown |
Qualsiasi altro file non all'interno di un altro cluster. | Si tratta di file privi di estensioni o che utilizzano estensioni comuni, ma non standard, come .dat, .1 o .2 | Al momento non è stata eseguita la scansione |
Tipi di file non supportati in Cloud Storage
Se un file non viene riconosciuto durante una scansione dello spazio di archiviazione, per impostazione predefinita il sistema lo scansiona come file binario. Tenta di convertire i contenuti in UTF_8 e poi li analizza come testo normale.
Se un file non viene riconosciuto durante una ricerca di dispositivi, il sistema non lo esegue.
Se hai una raccolta di file che vuoi saltare perché la funzionalità Protezione dei dati sensibili non li supporta, puoi specificare un elenco di esclusione utilizzando CloudStorageOptions.file_set.regex_file_set.exclude_regex
.
Limiti per i byte sottoposti a scansione per file
In generale, puoi limitare il numero di byte scansionati per file. Nella console Google Cloud, puoi farlo attivando il campionamento. Nell'API Cloud Data Loss Prevention, imposta il campo bytes_limit_per_file
o bytesLimitPerFilePercent
.
Il campionamento non è supportato nelle modalità OCR e di analisi intelligente. In altre parole, quando i seguenti tipi di file vengono scansionati in modalità OCR o di analisi intelligente dei documenti, la funzionalità Protezione dei dati sensibili ignora le impostazioni che applichi per limitare i byte scansionati per file.
- Immagine
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
Se esegui la scansione di questi file in modalità binaria, si applicano i limiti.
Modalità di scansione
Ogni modalità di scansione fornisce ulteriori dettagli sulla posizione nei risultati dell'ispezione.
Modalità di scansione | Note | Ulteriori dettagli sulla località da fornire |
---|---|---|
Binario | Se un file non riesce a essere analizzato come qualsiasi altro tipo, verrà convertito in UTF-8 e analizzato come testo. La scansione binaria influisce sulla qualità del rilevamento. |
|
Analisi intelligente dei documenti | I documenti vengono analizzati con il testo estratto dalla formattazione. Le immagini incorporate vengono analizzate utilizzando l'OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono analizzate come file binari. |
DocumentLocation |
Estrazione di metadati | Tutti i file sottoposti a scansione da Cloud Storage avranno
|
MetadataLocation |
Riconoscimento ottico dei caratteri (OCR) | Le immagini vengono analizzate utilizzando l'OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono analizzate come file binari. |
ImageLocation |
Testo normale | Nessun altro dettaglio | |
Analisi strutturata | Le informazioni strutturali vengono utilizzate per influenzare i risultati. In questa modalità di analisi, Sensitive Data Protection utilizza le informazioni dell'intestazione per il contesto. Esegue un'analisi tra righe e colonne per trovare dati correlati. Ad esempio, questa modalità di analisi può identificare l'indirizzo di una via i cui componenti sono distribuiti all'interno di più colonne consecutive. I risultati della scansione contengono informazioni strutturali, ad esempio la riga che contiene il rilevamento e il nome della colonna. I risultati non superano i confini delle celle di una tabella. |
RecordLocation |
Scansione dei file strutturati in modalità di analisi strutturata
Quando esegui la scansione di un file strutturato, ad esempio un file Avro, CSV o TSV, la funzionalità Protezione dei dati sensibili tenta di eseguire la scansione del file in modalità di scansione con analisi sintattica strutturata. Questa modalità di scansione ha una qualità di rilevamento superiore rispetto alla scansione di tipo binario perché la modalità di analisi sintattica strutturata cerca correlazioni tra righe e colonne nei dati strutturati.
I risultati vengono restituiti con metadati aggiuntivi che indicano la posizione del risultato, incluso il fieldId
.
Tuttavia, nei seguenti casi, Sensitive Data Protection potrebbe tornare alla modalità di scansione binaria, che non include i miglioramenti della modalità di analisi strutturata:
- Il file o l'intestazione è danneggiato.
- La configurazione del job di ispezione ha limiti di dimensioni, ad esempio
bytesLimitPerFile
ebytesLimitPerFilePercent
, che sono troppo piccoli. Ad esempio, se il limite dibytesLimitPerFile
non è sufficiente per includere un'intestazione di blocco completa e almeno una riga di dati validi, Sensitive Data Protection potrebbe eseguire la scansione del file in modalità di scansione binaria.
La selezione dei dati sottoposti a scansione dipende dal fatto che il campionamento sia impostato per iniziare dalla parte superiore del file o da una posizione casuale.
Ad esempio, supponiamo di avere un file Avro con intestazioni di blocco di 50 KB e blocchi di dati di 2 MB. In generale, iniziare il campionamento dall'alto ti consente di assicurarti che l'intestazione del blocco sia sempre inclusa nel campione acquisito da Sensitive Data Protection. Se inizi il campionamento da una posizione random nel file e la dimensione del campione è inferiore a un blocco di dati, è possibile che l'intestazione del blocco non sia inclusa nel campione. In questo esempio,
l'aumento della dimensione del campione (specificata da bytesLimitPerFile
o
bytesLimitPerFilePercent
) a 2,05 MB contribuisce a impedire all'ispezione di
ripristinare la modalità di analisi del codice binario.