Cloud Data Loss Prevention (Cloud DLP) ora fa parte di Sensitive Data Protection. Il nome dell'API rimane invariato: API Cloud Data Loss Prevention (API DLP). Per informazioni sui servizi che compongono Sensitive Data Protection, consulta la panoramica di Sensitive Data Protection.

Questa pagina è stata tradotta dall'API Cloud Translation.

Tipi di file e modalità di scansione supportati

Questa pagina elenca i tipi di file che Sensitive Data Protection può scansionare e descrive le modalità di scansione utilizzate da Sensitive Data Protection per analizzare i file.

Tipi di file supportati nelle operazioni di ispezione e anonimizzazione

La seguente tabella mostra i tipi di file che Sensitive Data Protection può ispezionare e trasformare (anonimizzare).

Sensitive Data Protection si basa sulle estensioni dei file e sui tipi di media (MIME) per identificare i tipi di file da analizzare e le modalità di scansione da applicare. Ad esempio, la protezione dei dati sensibili analizza un file .txt in modalità testo normale, anche se il file è strutturato come un file CSV, che normalmente viene analizzato in modalità di analisi strutturata.

Tipo di file	Estensioni dei file	Limiti	Modalità di scansione	Supporto per la trasformazione
`Apache Avro`	avro	Limiti di Avro	Analisi strutturata
`Comma- or tab-separated values`	csv, tsv Nota: per analizzare un file CSV o TSV in modalità di analisi strutturata, assicurati che il delimitatore del file corrisponda all' estensione del file. ovvero un file `.csv` deve essere delimitato da virgole, mentre un file `.tsv` deve essere delimitato da tabulazioni.		Analisi strutturata	Anonimizza i contenuti
`PDF`	pdf	Limiti per i PDF	Analisi intelligente dei documenti
`Text`	asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml		Testo normale	Anonimizza i contenuti
`Microsoft Word`	docm, docx, dotm, dotx	Limiti di parole	Analisi intelligente dei documenti
`Microsoft Excel`	xlsm, xlsx, xltm, xltx	Limiti di Excel	Analisi intelligente dei documenti
`Microsoft Powerpoint`	potm, potx, pptm, pptx	Limiti di PowerPoint	Analisi intelligente dei documenti
`Image`	bmp, gif, jpe, jpeg, jpg, png		OCR	Oscuramento
`Binary`	Tipi di file non riconosciuti e immagini che non possono essere scansionate utilizzando il riconoscimento ottico dei caratteri (OCR).		Binario

Cluster di file supportati nelle operazioni di rilevamento

Durante il rilevamento, Sensitive Data Protection organizza i file rilevati in cluster di file. Questi cluster sono gruppi di tipi di file simili. La tabella seguente mostra i cluster di file e le estensioni di file supportati. Non tutti i file rilevati sono analizzabili.

I file potrebbero spostarsi tra i cluster di file man mano che la protezione dei dati sensibili aggiunge il supporto per altri cluster di file. Man mano che il supporto della scansione si espande, il servizio di rilevamento potrebbe iniziare a scansionare file che in precedenza non venivano scansionati. L'addebito viene effettuato come descritto in Prezzi di Discovery.

Cluster di file	Estensioni dei file	Limiti	Modalità di scansione
`Text`	asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl		Testo normale
`Source Code`	bat, brf, c, c++, cc, cmd, com, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml		Testo normale
`Structured Data`	avro, csv, tsv, proto		Analisi strutturata per file avro, csv e tsv. Analisi del testo normale per i file proto
`Rich Documents`	doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx	Vengono scansionati i file PDF, Microsoft Word, Excel e PowerPoint supportati di dimensioni inferiori a 30 MiB.	Analisi intelligente dei documenti
`Images`	bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff, webp	Le immagini supportate (bmp, gif, jpe, jpeg, jpg e png) di dimensioni inferiori a 4 MiB vengono analizzate utilizzando l'OCR nelle regioni che lo supportano. Al di fuori di queste regioni, le immagini non vengono scansionate.	OCR
`Executables`	ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm		Al momento non è stata eseguita la scansione
`Archives`	7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#, lzh, lzx, mou, pak, paq#, paq6, paq7, paq8 e varianti, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz		La protezione dei dati sensibili esegue la scansione dei file all'interno degli archivi che hanno le seguenti estensioni: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz, z, zip La modalità di scansione utilizzata per ogni file dipende dal tipo di file.
`Multimedia`	3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (con DRM), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv		Al momento non è stata eseguita la scansione
`AI Models`	caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords		Al momento non è stata eseguita la scansione
`Unknown`	Qualsiasi altro file non incluso in un altro cluster.	Si tratta di file privi di estensioni o che utilizzano estensioni comuni ma non standard, come .dat, .1 o .2	Al momento non è stata eseguita la scansione

Tipi di file non riconosciuti in Cloud Storage

Se un file non viene riconosciuto durante una scansione dello spazio di archiviazione, il sistema lo scansionerà per impostazione predefinita come file binario. Tenta di convertire i contenuti in UTF_8, quindi li analizza come testo normale.

Se un file non viene riconosciuto durante una scansione di rilevamento, il sistema non lo scansiona.

Se hai una raccolta di file che vuoi ignorare perché la protezione dei dati sensibili non li riconosce, puoi specificare un elenco di esclusione utilizzando CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Limiti per i byte scansionati per file

In generale, puoi limitare il numero di byte scansionati per file. Nella console Google Cloud , puoi farlo attivando il campionamento. Nell'API Cloud Data Loss Prevention, imposta il campo bytes_limit_per_file o bytesLimitPerFilePercent.

Il campionamento non è supportato nelle modalità OCR e analisi intelligente. ovvero, quando i seguenti tipi di file vengono scansionati in modalità OCR o analisi intelligente dei documenti, la protezione dei dati sensibili ignora qualsiasi impostazione applicata per limitare i byte scansionati per file.

Immagine
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

Se scansioni questi file in modalità binaria, si applicano i limiti.

Modalità di scansione

Ogni modalità di scansione fornisce ulteriori dettagli sulla posizione nei risultati dell'ispezione.

Modalità di scansione	Note	Ulteriori dettagli sulla sede da fornire
Binario	Se l'analisi di un file non riesce con nessun altro tipo, il file verrà convertito in UTF_8 e scansionato come testo. La scansione binaria influisce sulla qualità del rilevamento.
Analisi intelligente dei documenti	I documenti vengono analizzati con il testo estratto dalla formattazione. Le immagini incorporate vengono analizzate utilizzando l'OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono scansionate come file binari.	`DocumentLocation`
Estrazione dei metadati	Tutti i file scansionati da Cloud Storage avranno `metadata` scansionato in aggiunta ai contenuti del file.	`MetadataLocation`
Riconoscimento ottico dei caratteri (OCR)	Le immagini vengono scansionate utilizzando l'OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono scansionate come file binari.	`ImageLocation`
Testo normale		Nessun dettaglio aggiuntivo
Analisi strutturata	Le informazioni strutturali vengono utilizzate per influenzare i risultati. In questa modalità di analisi, Sensitive Data Protection utilizza le informazioni dell'intestazione per il contesto. Esegue un'analisi tra righe e colonne per trovare dati correlati. Ad esempio, questa modalità di scansione può identificare l'indirizzo di una via i cui componenti sono distribuiti all'interno di più colonne consecutive. I risultati della scansione contengono informazioni strutturali, ad esempio la riga che contiene il risultato e il nome della colonna. I risultati non superano i limiti delle celle di una tabella.	`RecordLocation`

Scansione dei file strutturati in modalità di analisi strutturata

Quando esegui la scansione di un file strutturato, ad esempio un file Avro, CSV o TSV, Sensitive Data Protection tenta di eseguire la scansione del file in modalità di scansione dell'analisi strutturata. Questa modalità di scansione ha una qualità di rilevamento superiore rispetto alla scansione binaria perché la modalità di analisi strutturata cerca correlazioni tra righe e colonne nei dati strutturati. I risultati vengono restituiti con metadati aggiuntivi che indicano la posizione del risultato, incluso il fieldId.

Tuttavia, nei seguenti casi, Sensitive Data Protection potrebbe tornare alla modalità di scansione binaria, che non include i miglioramenti della modalità di analisi strutturata:

Il file o l'intestazione è danneggiato.
La configurazione del job di ispezione ha limiti di dimensioni, ad esempio bytesLimitPerFile e bytesLimitPerFilePercent, che sono troppo piccoli. Ad esempio, se il limite bytesLimitPerFile non è sufficiente per includere un'intestazione di blocco completa e almeno una riga di dati validi, Sensitive Data Protection potrebbe scansionare il file in modalità di scansione binaria.

La selezione dei dati scansionati dipende dal fatto che il campionamento sia impostato per iniziare dalla parte superiore del file o da una posizione casuale.

Ad esempio, supponiamo di avere un file Avro con intestazioni di blocco da 50 KB e blocchi di dati da 2 MB. In generale, iniziare il campionamento dall'alto ti aiuta ad assicurarti che l'intestazione del blocco sia sempre inclusa nel campione acquisito da Sensitive Data Protection. Se inizi il campionamento da una posizione casuale nel file e la dimensione del campione è inferiore a un blocco di dati, è possibile che l'intestazione del blocco non sia inclusa nel campione. In questo esempio, l'aumento delle dimensioni del campione (specificato da bytesLimitPerFile o bytesLimitPerFilePercent) a 2,05 MB contribuisce a impedire che l'ispezione ritorni alla modalità di analisi binaria.

Esempio: quando la dimensione del campione è troppo piccola, l'ispezione potrebbe non includere l'intestazione del blocco. — Esempio: quando la dimensione del campione è troppo piccola, l'ispezione potrebbe non includere l'intestazione del blocco (fai clic per ingrandire).