文件类型
下表显示了敏感数据保护功能支持的文件类型、相应的扫描限制、扫描模式和转换支持。
敏感数据保护功能依赖于文件扩展名和媒体 (MIME) 类型来识别要扫描的文件类型以及要应用的扫描模式。例如,敏感数据保护功能会在纯文本模式下扫描 .txt
文件,即使该文件的结构是 CSV 文件(通常在结构化解析模式下扫描)。
文件类型 | 文件扩展名 | 限制 | 扫描模式 | 转换支持 |
---|---|---|---|---|
Apache Avro |
avro |
Avro 限制 | 结构化解析 | |
Comma- or tab-separated values | csv、tsv | 结构化解析 | 对内容进行去标识化处理 | |
PDF |
PDF 限制 | 智能文档解析 | ||
Text |
asc、brf、c、cc、cpp、cxx、c++、cs、css、dart、eml、go、h、hh、hpp、hxx、h++、hs、html、htm、shtml、shtm、xhtml、lhs、ini、java、js、json、jsonl、ocaml、md、mkd、markdown、m、ml、mli、pl、pm、php、phtml、pht、py、pyw、rb、rbw、rs、rc、scala、sh、sql、tex、txt、text、vcard、vcs、wml、xml、xsl、xsd、yml、yaml。 |
纯文本 | 对内容进行去标识化处理 | |
Microsoft Word |
docx、dotx、docm、dotm |
Word 限制 | 智能文档解析 | |
Microsoft Excel |
xlsx、xlsm、xltx、xltm |
Excel 限制 | 智能文档解析 | |
Microsoft Powerpoint |
pptx、pptm、potx、potm |
PowerPoint 限制 | 智能文档解析 | |
Image |
bmp、gif、jpg、jpeg、jpe、png |
OCR | 隐去 | |
Binary |
不受支持的文件类型以及无法使用光学字符识别 (OCR) 扫描的图片。 |
二进制 |
文件集群
下表显示了敏感数据保护在创建敏感数据分析文件时支持的文件组。文件存储区数据分析文件会为每组类似文件提供敏感性和数据风险得分。
随着敏感数据保护功能支持更多文件类型,文件可能会在文件集群之间移动。随着扫描支持范围的扩大,发现服务可能会开始扫描之前未扫描的文件。您需要按照发现功能价格中所述的那样进行付费。
文件类型 | 文件扩展名 | 限制 | 扫描模式 | |
---|---|---|---|---|
Text |
asc、eml、html、htm、ini、json、jsonL、log、md、mkd、markdown、plist、sql、shtml、shtm、tex、txt、text、vcard、vcs、xsl、xsd |
纯文本 | ||
Source Code |
bat、brf、c、cc、cpp、cxx、c++、cs、css、dart、go、h、hh、hpp、hxx、hs、lhs、java、js、ocaml、m、ml、pl、php、phtml、phtm、ps1、py、pyw、rb、rbw、rs、rc、scala、sh、sql、wml、xml、yml、yaml、bat、vb、scpt、scr、script、cmd、vbs |
纯文本 | ||
Structured Data |
avro、csv、tsv、proto |
对 avro、csv 和 tsv 文件进行结构化解析。对 proto 文件进行纯文本解析 | ||
Rich Documents |
doc、docx、dotx、docm、dotm、xls、xlsx、xlsm、xltx、xltm、xls、ppt、pptx、pptm、potx、potm、pdf |
系统会扫描小于 30 MiB 的受支持 PDF、Microsoft Word、Excel 和 PowerPoint 文件。 | 智能文档解析 | |
Images |
bmp、gif、heic、ico、jpg、jpeg、jpe、png、pm、svg、tiff、webp |
在支持光学字符识别 (OCR) 功能的区域中,小于 4 MiB 的受支持图片(BMP、GIF、JPG、JPEG、JPE、PNG)使用该功能进行扫描。 在这些区域之外,系统不会扫描图片。 | OCR | |
Executables |
ac、air、app、appimage、apk、bas、bms、bin、class、cls、com、command、ctl、ctx、dca、ddf、dep、dob、dox、dll、dsr、dsx、dws、exe、frm、frx、gadget、ipa、mpk、oca、ocx、pag、pgx、pif、pyc、res、run、scb、tlb、vbd、vbg、vbl、vbp、vbr、vbw、vbz、vlx、wct、wsf、widget、workflow、x86、x86_64、xap、xbe、xlm |
目前未扫描 | ||
Archives |
zz、zpaq、zoo、zip、zipx、yz1、xp3、xar、wim、war、uha、uca、uc、uc0、uc2、ucn、ur2、ue2、tar、gz、tgz、sqx、sitx、sit、shk、sfx、sen、sea、sda、s7z、rk、rar、qda、pit、pim、phar、pea、paq6、paq7、paq8 及变体、pak、lzx、lzh、lha、kgb、jar、ice、hki、ha、genozip、gca、ear、dmg、dgc、dd、dar、cpt、cfs、car、cab、bh、ba、b6z、b1、arj、arc、cdx、arc、ark、apk、alz、afa、ace、7z、a、ar、cpio、shar、run、tar、tar、7z、ace、afa、arc、arj、b1、cab、cfs、cpt、dar、dgc、arc、lzh、lha、lzx、iso、img、ima、arc、mou、dmg、partimg、paq#*、lpaq#*、pea、pim、qda、rar、rk、shk、sit、sitx、uc、uc0、uc2、ucn、ur2、ue2、wim、swm、esd、zip、zpaq |
目前未扫描 | ||
Multimedia |
aa、aac、ax、act、aiff、alac、amr、ape、au、awb、dss、dvf、flac、gsm、iklax、ivs、m4a、m4b、m4p、mmf、movpkg、mp3、mpc、msv、nmf、ogg、oga、mogg、opus、ra、rm、raw、rf64、sln、tta、voc、vox、wav、wma、wv、webm、8svx、cda、webm、mkv、flv、flv、vob、ogv、ogg、drc、gif、gifv、mng、avi、MTS、M2TS、TS、mov、qt、wmv、yuv、rm、rmvb、viv、asf、amv、mp4、m4p(带 DRM)、m4v、mpg、mp2、mpeg、mpe、mpv、mpg、mpeg、m2v、m4v、svi、3gp、3g2、mxf、roq、nsv、flv、f4v、f4p、f4a、f4b |
目前未扫描 | ||
AI Models |
keras、pt、pth、tflite |
目前未扫描 | ||
Unknown |
不在其他集群中的任何其他文件。 | 这些文件缺少扩展名,或者使用常见但非标准的扩展名,例如 .dat、.1 或 .2 | 目前未扫描 |
Cloud Storage 中不受支持的文件类型
如果在存储扫描期间无法识别某个文件,则默认情况下,系统会将其扫描为二进制文件。它会尝试将内容转换为 UTF_8,然后将其扫描为纯文本。
如果在发现扫描期间无法识别某个文件,则系统不会对其进行扫描。
如果您有一组文件因敏感数据保护功能不支持而要跳过,则可以使用 CloudStorageOptions.file_set.regex_file_set.exclude_regex
指定排除列表。
对每个文件扫描的字节数的限制
一般来说,您可以限制要扫描的每个文件的字节数。在 Google Cloud 控制台中,您可以通过启用抽样来实现此目的。在 Cloud Data Loss Prevention API 中,您可以设置 bytes_limit_per_file
或 bytesLimitPerFilePercent
字段。
光学字符识别 (OCR) 和智能解析模式不支持抽样。也就是说,当系统在 OCR 或智能文档解析模式下扫描以下文件类型时,敏感数据保护功能会忽略您应用的任何设置,以限制系统为每种文件扫描的字节数。
- Image
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
如果您在二进制模式下扫描这些文件,则需要遵守这些限制。
扫描模式
扫描模式 | 备注 | 要提供的其他位置详细信息 |
---|---|---|
二进制 | 如果文件无法解析为任何其他类型,系统会将其转换为 UTF_8 并扫描为文本。二进制扫描会影响检测质量。 |
|
智能文档解析 | 通过从格式中提取的文本来解析文档。系统会在支持图片的区域中使用 OCR 扫描嵌入的图片。在这些区域之外,图片将作为二进制文件进行扫描。 |
DocumentLocation |
元数据提取 | 除了文件的内容外,从 Cloud Storage 扫描的所有文件都将进行 |
MetadataLocation |
光学字符识别 (OCR) | 使用 OCR 在支持图片的区域中扫描图片。在这些区域之外,图片将作为二进制文件进行扫描。 |
ImageLocation |
纯文本 | 无其他详细信息 | |
结构化解析 | 结构信息用于影响结果。在此扫描模式下,Sensitive Data Protection 使用标题信息来了解上下文。它会执行跨行和跨列分析以查找关联数据。例如,此扫描模式可以确定组成部分分散在一行中多个列内的街道地址。 扫描结果包含结构信息,例如包含发现结果的行和列的名称。 发现结果不会超出表格的单元格边界。 |
RecordLocation |
在结构化解析模式下扫描结构化文件
当您扫描结构化文件(例如 Avro、CSV 或 TSV 文件)时,敏感数据保护功能会尝试在结构化解析扫描模式下扫描该文件。与二进制扫描相比,此扫描模式的检测质量更高,因为结构化解析模式会搜索结构化数据中行与列之间的相关性。返回的发现结果会附带其他元数据,用于指明发现结果的位置,包括 fieldId
。
不过,在以下情况下,敏感数据保护功能可能会恢复为二进制扫描模式,该模式不包含结构化解析模式的增强功能:
- 文件或标头已损坏。
- 检查作业配置的大小限制(例如
bytesLimitPerFile
和bytesLimitPerFilePercent
)过小。例如,如果bytesLimitPerFile
限制不够大,无法包含完整的块标头和至少一行有效数据,则敏感数据保护功能可能会以二进制扫描模式扫描该文件。
要扫描的数据的选择取决于抽样是设置为从文件顶部开始还是从随机位置开始。
例如,假设您有一个 Avro 文件,其中包含 50 KB 的块标头和 2 MB 的数据块。一般来说,从顶部开始采样有助于确保敏感数据保护功能采集的样本中始终包含块头。如果您从文件中的随机位置开始抽样,并且抽样大小小于数据块,则可能会导致分块标头未包含在抽样中。在此示例中,将示例大小(由 bytesLimitPerFile
或 bytesLimitPerFilePercent
指定)增加到 2.05 MB 有助于防止检查回退到二进制解析模式。