本页列出了 Sensitive Data Protection 可以扫描的文件类型,并介绍了 Sensitive Data Protection 用于分析文件的扫描模式。
检查和去标识化操作支持的文件类型
下表显示了 Sensitive Data Protection 可以检查和转换(去标识化)的文件类型。
Sensitive Data Protection 依靠文件扩展名和媒体 (MIME) 类型来确定要扫描的文件类型以及要应用的扫描模式。例如,即使 .txt
文件采用 CSV 文件结构,敏感数据保护也会以纯文本模式扫描该文件,而 CSV 文件通常以结构化解析模式进行扫描。
文件类型 | 文件扩展名 | 限制 | 扫描模式 | 转换支持 |
---|---|---|---|---|
Apache Avro |
avro |
Avro 限制 | 结构化解析 | |
Comma- or tab-separated values | csv、tsv | 结构化解析 | 对内容进行去标识化处理 | |
PDF |
PDF 限制 | 智能文档解析 | ||
Text |
asc、brf、c、c++、cc、cpp、cs、css、cxx、dart、eml、go、h、h++、hh、hpp、hs、htm、html、hxx、ini、java、js、json、jsonl、lhs、m、markdown、md、mkd、ml、mli、ocaml、php、pht、phtml、pl、pm、py、pyw、rb、rbw、rc、rs、scala、sh、shtm、shtml、sql、tex、text、txt、vcard、vcs、wml、xhtml、xml、xsd、xsl、yaml、yml |
纯文本 | 对内容进行去标识化处理 | |
Microsoft Word |
docm、docx、dotm、dotx |
Word 限制 | 智能文档解析 | |
Microsoft Excel |
xlsm、xlsx、xltm、xltx |
Excel 限制 | 智能文档解析 | |
Microsoft Powerpoint |
potm、potx、pptm、pptx |
PowerPoint 限制 | 智能文档解析 | |
Image |
bmp、gif、jpe、jpeg、jpg、png |
OCR | 隐去 | |
Binary |
无法识别的文件类型以及无法使用光学字符识别 (OCR) 扫描的图片。 |
二进制 |
发现操作中支持的文件集群
在发现过程中,Sensitive Data Protection 会将检测到的文件整理成文件集群。这些集群是相似文件类型的分组。下表显示了支持的文件集群和文件扩展名。并非所有检测到的文件都可扫描。
随着 Sensitive Data Protection 对更多文件集群的支持,文件可能会在文件集群之间移动。随着扫描支持范围的扩大,发现服务可能会开始扫描之前未扫描过的文件。您需要按照 Discovery 价格付费。
文件集群 | 文件扩展名 | 限制 | 扫描模式 |
---|---|---|---|
Text |
asc、eml、htm、html、ini、json、jsonL、log、markdown、md、mkd、plist、shtm、shtml、sql、tex、text、txt、vcard、vcs、xsd、xsl |
纯文本 | |
Source Code |
bat、brf、c、c++、cc、cmd、cpp、cs、css、cxx、dart、go、h、hh、 hpp、hs、hxx、java、js、lhs、m、ml、ocaml、php、phtm、phtml、pl、ps1、py、 pyw、rb、rbw、rc、rs、scala、scpt、scr、script、sh、sql、vb、vbs、wml、xml、 yaml、yml |
纯文本 | |
Structured Data |
avro、csv、tsv、proto |
针对 avro、csv 和 tsv 文件的结构化解析。针对 proto 文件的纯文本解析 | |
Rich Documents |
doc、docm、docx、dotm、dotx、pdf、potm、potx、ppt、pptm、pptx、xls、xlsm、xlsx、xltm、xltx |
系统会扫描小于 30 MiB 的受支持 PDF、Microsoft Word、Excel 和 PowerPoint 文件。 | 智能文档解析 |
Images |
bmp、gif、heic、ico、jpe、jpeg、jpg、pm、png、svg、tiff、webp |
在支持图片的区域中,小于 4 MiB 的受支持图片(bmp、gif、jpe、jpeg、jpg 和 png)使用 OCR 进行扫描。 在这些区域之外,系统不会扫描图片。 | OCR |
Executables |
ac、air、apk、app、appimage、bas、bin、bms、class、cls、com、command、ctl、ctx、dca、ddf、dep、dll、dob、dox、dsr、dsx、dws、exe、frm、frx、gadget、ipa、mpk、oca、ocx、pag、pgx、pif、pyc、res、run、scb、tlb、vbd、vbg、vbl、vbp、vbr、vbw、vbz、vlx、wct、widget、workflow、wsf、x86、x86_64、xap、xbe、xlm |
目前未扫描 | |
Archives |
7z、a、ace、afa、alz、apk、ar、arc、arj、ark、b1、b6z、ba、bh、cab、car、cdx、cfs、cpio、cpt、dar、dd、dgc、dmg、ear、esd、gca、genozip、gz、ha、hki、ice、ima、img、iso、jar、kgb、lha、lpaq#*、lzh、lzx、mou、pak、paq#*、paq6、paq7、paq8 及变体、partimg、pea、phar、pim、pit、qda、rar、rk、run、s7z、sda、sea、sen、sfx、shar、shk、sit、sitx、sqx、swm、tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、tgz、uc、uc0、uc2、uca、ucn、ue2、uha、ur2、war、wim、xar、xp3、yz1、zip、zipx、zoo、zpaq、zz |
敏感数据保护功能会扫描具有以下文件扩展名的归档中的文件:bz2、cpio、gz、jar、lz4、lzma、tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、xz、z、zip 用于扫描每个文件的扫描模式取决于文件类型。 |
|
Multimedia |
3g2、3gp、8svx、aa、aac、aax、act、aiff、alac、amr、amv、ape、asf、au、avi、awb、cda、drc、dss、dvf、f4a、f4b、f4p、f4v、flac、flv、gif、gifv、gsm、iklax、ivs、M2TS、m2v、m4a、m4b、m4p、m4p(含 DRM)、m4v、mkv、mmf、mng、mogg、mov、movpkg、mp2、mp3、mp4、mpc、mpe、mpeg、mpg、mpv、msv、MTS、mxf、nmf、nsv、oga、ogg、ogv、opus、qt、ra、raw、rf64、rm、rmvb、roq、sln、svi、TS、tta、viv、vob、voc、vox、wav、webm、wma、wmv、wv、yuv |
目前未扫描 | |
AI Models |
caffemodel、ckpt、coreml、dlc、ggjt、ggmf、ggml、gguf、h5、keras、llamafile、mar、mleap、nc、npy、npz、onnx、pb、pkl、prompt、pt、pt2、pte、pth、ptl、safetensors、surml、tflite、tfrecords |
目前未扫描 | |
Unknown |
不属于任何其他聚类的任何其他文件。 | 这些文件缺少扩展名或使用常见但非标准的扩展名,例如 .dat 或 .1 或 .2 | 目前未扫描 |
Cloud Storage 中无法识别的文件类型
如果在存储扫描期间无法识别某个文件,则默认情况下,系统会将其扫描为二进制文件。它会尝试将内容转换为 UTF_8,然后将其扫描为纯文本。
如果在发现扫描期间无法识别某个文件,则系统不会扫描该文件。
如果您有一组文件因 Sensitive Data Protection 无法识别而要跳过,则可以使用 CloudStorageOptions.file_set.regex_file_set.exclude_regex
指定排除列表。
每个文件扫描的字节数上限
一般来说,您可以限制每个文件扫描的字节数。在Google Cloud 控制台中,您可以通过启用抽样来执行此操作。在 Cloud Data Loss Prevention API 中,您可以设置 bytes_limit_per_file
或 bytesLimitPerFilePercent
字段。
在 OCR 和智能解析模式下,不支持抽样。也就是说,当以 OCR 或智能文档解析模式扫描以下文件类型时,Sensitive Data Protection 会忽略您为限制每个文件的扫描字节数而应用的任何设置。
- 映像
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
如果您以二进制模式扫描这些文件,则适用这些限制。
扫描模式
扫描模式 | 备注 | 要提供的其他位置详细信息 |
---|---|---|
二进制 | 如果文件无法解析为任何其他类型,系统会将其转换为 UTF_8 并扫描为文本。二进制扫描会影响检测质量。 |
|
智能文档解析 | 通过从格式中提取的文本来解析文档。系统会在支持图片的区域中使用 OCR 扫描嵌入的图片。在这些区域之外,图片将作为二进制文件进行扫描。 |
DocumentLocation |
元数据提取 | 除了文件的内容外,从 Cloud Storage 扫描的所有文件都将进行 |
MetadataLocation |
光学字符识别 (OCR) | 使用 OCR 在支持图片的区域中扫描图片。在这些区域之外,图片将作为二进制文件进行扫描。 |
ImageLocation |
纯文本 | 无其他详细信息 | |
结构化解析 | 结构信息用于影响结果。在此扫描模式下,Sensitive Data Protection 使用标题信息来了解上下文。它会执行跨行和跨列分析以查找相关数据。例如,此扫描模式可以确定组成部分分散在一行中多个列内的街道地址。 扫描结果包含结构信息,例如包含发现结果的行和列的名称。 发现结果不会超出表格的单元格边界。 |
RecordLocation |
在结构化解析模式下扫描结构化文件
当您扫描结构化文件(例如 Avro、CSV 或 TSV 文件)时,Sensitive Data Protection 会尝试以结构化解析扫描模式扫描该文件。与二元扫描相比,这种扫描模式具有更高的检测质量,因为结构化解析模式会搜索结构化数据中行与列之间的相关性。返回的检测结果会附带额外的元数据,用于指明检测结果的位置,包括 fieldId
。
不过,在以下情况下,敏感数据保护可能会恢复为二进制扫描模式,该模式不包含结构化解析模式的增强功能:
- 文件或标头已损坏。
- 检查作业配置的大小限制(例如
bytesLimitPerFile
和bytesLimitPerFilePercent
)太小。例如,如果bytesLimitPerFile
限制不足以包含完整的块标头和至少一行有效数据,则 Sensitive Data Protection 可能会以二进制扫描模式扫描该文件。
扫描的数据选择取决于抽样是设置为从文件顶部开始还是从随机位置开始。
例如,假设您有一个 Avro 文件,其中包含 50 KB 的块标头和 2 MB 的数据块。一般来说,从顶部开始采样有助于确保 Sensitive Data Protection 始终将块头包含在所采集的样本中。如果您从文件中的随机位置开始抽样,并且样本大小小于数据块,则样本中可能不包含块头。在此示例中,将样本大小(由 bytesLimitPerFile
或 bytesLimitPerFilePercent
指定)增加到 2.05 MB 有助于防止检查恢复为二进制解析模式。