本頁列出 Sensitive Data Protection 可掃描的檔案類型,並說明 Sensitive Data Protection 用來分析檔案的掃描模式。
檢查和去識別化作業支援的檔案類型
下表列出 Sensitive Data Protection 可檢查及轉換 (去識別化) 的檔案類型。
Sensitive Data Protection 會根據檔案副檔名和媒體 (MIME) 類型,判斷要掃描的檔案類型,以及要套用的掃描模式。舉例來說,即使檔案結構為 CSV 檔案 (通常會以結構化剖析模式掃描),機密資料保護服務仍會以純文字模式掃描 .txt
檔案。
檔案類型 | 副檔名 | 限制 | 掃描模式 | 轉換支援 |
---|---|---|---|---|
Apache Avro |
avro |
Avro 限制 | 結構化剖析 | |
Comma- or tab-separated values | csv、tsv | 結構化剖析 | 去識別化內容 | |
PDF |
PDF 限制 | 智慧型文件剖析 | ||
Text |
asc、brf、c、c++、cc、cpp、cs、css、cxx、dart、eml、go、h、h++、hh、 hpp、hs、htm、html、hxx、ini、java、js、json、jsonl、lhs、m、markdown、md、 mkd、ml、mli、ocaml、php、pht、phtml、pl、pm、py、pyw、rb、rbw、rc、rs、 scala、sh、shtm、shtml、sql、tex、text、txt、vcard、vcs、wml、xhtml、xml、 xsd、xsl、yaml、yml |
純文字 | 去識別化內容 | |
Microsoft Word |
docm、docx、dotm、dotx |
字數限制 | 智慧型文件剖析 | |
Microsoft Excel |
xlsm、xlsx、xltm、xltx |
Excel 限制 | 智慧型文件剖析 | |
Microsoft Powerpoint |
potm、potx、pptm、pptx |
PowerPoint 限制 | 智慧型文件剖析 | |
Image |
bmp、gif、jpe、jpeg、jpg、png |
OCR | 遮蓋 | |
Binary |
無法辨識的檔案類型,以及無法使用光學字元辨識 (OCR) 掃描的圖片。 |
二進位檔 |
探索作業中支援的檔案叢集
在探索期間,Sensitive Data Protection 會將偵測到的檔案整理成檔案叢集。這些叢集是類型相似的檔案群組。下表列出支援的檔案叢集和副檔名。系統不一定能掃描所有偵測到的檔案。
隨著機密資料保護功能支援更多檔案叢集,檔案可能會在檔案叢集之間移動。隨著掃描支援範圍擴大,探索服務可能會開始掃描先前未掃描的檔案。系統會按照 Discovery 定價向您收費。
檔案叢集 | 副檔名 | 限制 | 掃描模式 |
---|---|---|---|
Text |
asc、eml、htm、html、ini、json、jsonL、log、markdown、md、mkd、plist、 shtm、shtml、sql、tex、text、txt、vcard、vcs、xsd、xsl |
純文字 | |
Source Code |
bat、brf、c、c++、cc、cmd、cpp、cs、css、cxx、dart、go、h、hh、 hpp、hs、hxx、java、js、lhs、m、ml、ocaml、php、phtm、phtml、pl、ps1、py、 pyw、rb、rbw、rc、rs、scala、scpt、scr、script、sh、sql、vb、vbs、wml、xml、 yaml、yml |
純文字 | |
Structured Data |
avro、csv、tsv、proto |
針對 avro、csv 和 tsv 檔案進行結構化剖析。剖析 Proto 檔案的純文字 | |
Rich Documents |
doc、docm、docx、dotm、dotx、pdf、potm、potx、ppt、pptm、pptx、xls、 xlsm、xlsx、xltm、xltx |
系統會掃描支援的 PDF、Microsoft Word、Excel 和 PowerPoint 檔案,但檔案大小必須小於 30 MiB。 | 智慧型文件剖析 |
Images |
bmp、gif、heic、ico、jpe、jpeg、jpg、pm、png、svg、tiff、webp |
支援的圖片 (bmp、gif、jpe、jpeg、jpg 和 png) 如果小於 4 MiB,而且所在區域支援光學字元辨識 (OCR),就會以這項技術掃描。其他區域的圖片不會掃描。 | OCR |
Executables |
ac、air、apk、app、appimage、bas、bin、bms、class、cls、com、command、 ctl、ctx、dca、ddf、dep、dll、dob、dox、dsr、dsx、dws、exe、frm、frx、 gadget、ipa、mpk、oca、ocx、pag、pgx、pif、pyc、res、run、scb、tlb、vbd、 vbg、vbl、vbp、vbr、vbw、vbz、vlx、wct、widget、workflow、wsf、x86、 x86_64、xap、xbe、xlm |
目前未掃描 | |
Archives |
7z、a、ace、afa、alz、apk、ar、arc、arj、ark、b1、b6z、ba、bh、cab、 car、cdx、cfs、cpio、cpt、dar、dd、dgc、dmg、ear、esd、gca、genozip、gz、 ha、hki、ice、ima、img、iso、jar、kgb、lha、lpaq#*、lzh、lzx、mou、pak、 paq#*、paq6、paq7、paq8 和變體、partimg、pea、phar、pim、pit、qda、 rar、rk、run、s7z、sda、sea、sen、sfx、shar、shk、sit、sitx、sqx、swm、 tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、tgz、uc、uc0、uc2、 uca、ucn、ue2、uha、ur2、war、wim、xar、xp3、yz1、zip、zipx、zoo、zpaq、zz |
Sensitive Data Protection 會掃描封存檔中的檔案,這些檔案的副檔名包括:bz2、cpio、gz、jar、lz4、lzma、tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、xz、z、zip 系統會根據檔案類型,為每個檔案選用適當的掃描模式。 |
|
Multimedia |
3g2、3gp、8svx、aa、aac、aax、act、aiff、alac、amr、amv、ape、asf、au、avi、awb、cda、drc、dss、dvf、f4a、f4b、f4p、f4v、flac、flv、gif、gifv、gsm、iklax、ivs、M2TS、m2v、m4a、m4b、m4p、m4p (含 DRM)、m4v、mkv、mmf、mng、mogg、mov、movpkg、mp2、mp3、mp4、mpc、mpe、mpeg、mpg、mpv、msv、MTS、mxf、nmf、nsv、oga、ogg、ogv、opus、qt、ra、raw、rf64、rm、rmvb、roq、sln、svi、TS、tta、viv、vob、voc、vox、wav、webm、wma、wmv、wv、yuv |
目前未掃描 | |
AI Models |
caffemodel、ckpt、coreml、dlc、ggjt、ggmf、ggml、gguf、h5、keras、llamafile、mar、mleap、nc、npy、npz、onnx、pb、pkl、prompt、pt、pt2、pte、pth、ptl、safetensors、surml、tflite、tfrecords |
目前未掃描 | |
Unknown |
不屬於其他叢集的任何其他檔案。 | 這些檔案沒有副檔名,或使用常見但非標準的副檔名,例如 .dat、.1 或 .2 | 目前未掃描 |
Cloud Storage 中無法辨識的檔案類型
如果系統在儲存空間掃描期間無法辨識檔案,預設會將檔案掃描為二進位檔案。並嘗試將內容轉換為 UTF_8,然後以純文字形式掃描。
如果在探索掃描期間無法辨識檔案,系統就不會掃描該檔案。
如果您有一系列檔案要略過,因為資料遺失防護無法辨識這些檔案,可以使用 CloudStorageOptions.file_set.regex_file_set.exclude_regex
指定排除清單。
每個檔案的掃描位元組數上限
一般來說,您可以限制每個檔案掃描的位元組數。在Google Cloud 控制台中,只要開啟取樣即可。在 Cloud Data Loss Prevention API 中,您會設定 bytes_limit_per_file
或 bytesLimitPerFilePercent
欄位。
OCR 和智慧剖析模式不支援取樣。也就是說,當您在 OCR 或智慧型文件剖析模式下掃描下列檔案類型時,機密資料保護功能會忽略您套用的任何設定,不會限制每個檔案掃描的位元組數。
- 圖片
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
如果以二進位模式掃描這些檔案,就會受到限制。
掃描模式
掃描模式 | 附註 | 提供其他地點詳細資料 |
---|---|---|
二進位檔 | 如果檔案無法剖析為任何其他類型,系統會將其轉換為 UTF_8 並掃描為文字。二進位掃描會影響偵測品質。 |
|
智慧型文件剖析 | 系統剖析文件時,會從格式設定中擷取出文字。 如果所在區域支援光學字元辨識 (OCR) ,系統會透過這項技術掃描嵌入的圖片。其他區域的圖片會當做二進位檔案掃描。 |
DocumentLocation |
中繼資料擷取 | 系統會掃描 Cloud Storage 中的所有檔案,並在檔案內容之外,一併掃描 |
MetadataLocation |
光學字元辨識 (OCR) | 如果所在區域支援光學字元辨識 (OCR) ,系統會透過這項技術掃描圖片。其他區域的圖片會當做二進位檔案掃描。 |
ImageLocation |
純文字 | 沒有其他詳細資料 | |
結構化剖析 | 結構資訊會影響調查結果。在這種掃描模式下,Sensitive Data Protection 會從標頭取得背景資訊,並執行跨資料列和跨資料欄分析作業,找出相關聯的資料。舉例來說,假設街道地址的各部分散布於某列的不同資料欄,您就能透過這個掃描模式辨識完整街道地址。 掃描結果包含結構資訊,例如含有發現項目的資料列和資料欄名稱。 發現項目不會跨越表格儲存格的邊界。 |
RecordLocation |
以結構化剖析模式掃描結構化檔案
掃描結構化檔案 (例如 Avro、CSV 或 TSV 檔案) 時,Sensitive Data Protection 會嘗試以結構化剖析掃描模式掃描檔案。與二進位掃描相比,這個掃描模式的偵測品質更優異,因為結構化剖析模式會搜尋結構化資料中的列和欄之間的相互關係。系統會傳回調查結果,以及指出調查結果位置的其他中繼資料,包括 fieldId
。
不過,在下列情況下,Sensitive Data Protection 可能會還原為二進位掃描模式,該模式不包含結構化剖析模式的強化功能:
- 檔案或標頭已毀損。
- 檢查工作設定有大小限制 (例如
bytesLimitPerFile
和bytesLimitPerFilePercent
),但限制太小。舉例來說,如果bytesLimitPerFile
限制不夠大,無法納入完整區塊標頭和至少一列有效資料,Sensitive Data Protection 可能會以二進位掃描模式掃描該檔案。
掃描的資料取決於取樣設定,也就是從檔案頂端或隨機位置開始取樣。
舉例來說,假設您有一個 Avro 檔案,其中包含 50 KB 的區塊標頭和 2 MB 的資料區塊。一般來說,從頂端開始取樣有助於確保 Sensitive Data Protection 擷取的樣本一律包含區塊標頭。如果您從檔案中的隨機位置開始取樣,且樣本大小小於資料區塊,則樣本可能不會包含區塊標頭。在這個範例中,將樣本大小 (由 bytesLimitPerFile
或 bytesLimitPerFilePercent
指定) 增加至 2.05 MB,有助於防止檢查作業還原為二進位剖析模式。