支援的檔案類型和掃描模式

檔案類型

下表列出 Sensitive Data Protection 支援的檔案類型,以及對應的掃描限制、掃描模式和轉換支援。

Sensitive Data Protection 會根據檔案副檔名和媒體 (MIME) 類型,判斷要掃描的檔案類型,以及要套用的掃描模式。舉例來說,即使檔案結構為 CSV 檔案 (通常會以結構化剖析模式掃描),機密資料保護服務仍會以純文字模式掃描 .txt 檔案。

檔案類型 副檔名 限制 掃描模式 轉換支援
Apache Avro

avro

Avro 限制 結構化剖析
Comma- or tab-separated values

csv、tsv

結構化剖析 去識別化內容
PDF

pdf

PDF 限制 智慧型文件剖析
Text

asc、brf、c、cc、cpp、cxx、c++、cs、css、dart、eml、go、h、hh、 hpp、hxx、h++、hs、html、htm、shtml、shtm、xhtml、lhs、ini、java、js、json、 jsonl、ocaml、md、mkd、markdown、m、ml、mli、pl、pm、php、phtml、pht、py、 pyw、rb、rbw、rs、rc、scala、sh、sql、tex、txt、text、vcard、vcs、wml、 xml、xsl、xsd、yml、yaml。

純文字 去識別化內容
Microsoft Word

docx、dotx、docm、dotm

字數限制 智慧型文件剖析
Microsoft Excel

xlsx、xlsm、xltx、xltm

Excel 限制 智慧型文件剖析
Microsoft Powerpoint

pptx、pptm、potx、potm

PowerPoint 限制 智慧型文件剖析
Image

bmp、gif、jpg、jpeg、jpe、png

OCR 塗銷
Binary

無法辨識的檔案類型,以及無法使用光學字元辨識 (OCR) 掃描的圖片。

二進位檔

檔案叢集

下表列出 Sensitive Data Protection 在建立機密資料剖析檔時支援的檔案群組。檔案儲存庫資料剖析檔會提供每個類似檔案集合的敏感度和資料風險分數。

隨著 Sensitive Data Protection 支援更多檔案類型,檔案可能會在檔案叢集之間移動。隨著掃描支援範圍擴大,探索服務可能會開始掃描先前未掃描的檔案。系統會按照探索功能定價向您收取費用。

檔案類型 副檔名 限制 掃描模式
Text

asc、eml、html、htm、ini、json、jsonL、log、md、mkd、markdown、plist、sql、shtml、shtm、tex、txt、text、vcard、vcs、xsl、xsd

純文字
Source Code

bat、brf、c、cc、cpp、cxx、c++、cs、css、dart、go、h、hh、hpp、hxx、hs、lhs、java、js、ocaml、m、ml、pl、php、phtml、phtm、ps1、py、pyw、rb、rbw、rs、rc、scala、sh、sql、wml、xml、yml、yaml、bat、vb、scpt、scr、script、cmd、vbs

純文字
Structured Data

avro、csv、tsv、proto

針對 avro、csv 和 tsv 檔案進行結構化剖析。剖析 Proto 檔案的純文字
Rich Documents

doc、docx、dotx、docm、dotm、xls、xlsx、xlsm、xltx、xltm、xls、ppt、pptx、pptm、potx、potm、pdf

系統會掃描支援的 PDF、Microsoft Word、Excel 和 PowerPoint 檔案,但檔案大小必須小於 30 MiB。 智慧型文件剖析
Images

bmp、gif、heic、ico、jpg、jpeg、jpe、png、pm、svg、tiff、webp

支援的圖片 (bmp、gif、jpg、jpeg、jpe、png) 如果小於 4 MiB,而且所在區域支援 OCR,就會以這項技術掃描。其他區域的圖片不會掃描。 OCR
Executables

ac、air、app、appimage、apk、bas、bms、bin、class、cls、com、command、ctl、ctx、dca、ddf、dep、dob、dox、dll、dsr、dsx、dws、exe、frm、frx、gadget、ipa、mpk、oca、ocx、pag、pgx、pif、pyc、res、run、scb、tlb、vbd、vbg、vbl、vbp、vbr、vbw、vbz、vlx、wct、wsf、widget、workflow、x86、x86_64、xap、xbe、xlm

目前未掃描
Archives

zz、zpaq、zoo、zip、zipx、yz1、xp3、xar、wim、war、uha、uca、uc、uc0、uc2、ucn、ur2、ue2、tar、gz、tgz、sqx、sitx、sit、shk、sfx、sen、sea、sda、s7z、rk、rar、qda、pit、pim、phar、pea、paq6、paq7、paq8 和變體、pak、lzx、lzh、lha、kgb、jar、ice、hki、ha、genozip、gca、ear、dmg、dgc、dd、dar、cpt、cfs、car、cab、bh、ba、b6z、b1、arj、arc、cdx、arc、ark、apk、alz、afa、ace、7z、a、ar、cpio、shar、run、tar、tar、7z、ace、afa、arc、arj、b1、cab、cfs、cpt、dar、dgc、arc、lzh、lha、lzx、iso、img、ima、arc、mou、dmg、partimg、paq#*、lpaq#*、pea、pim、qda、rar、rk、shk、sit、sitx、uc、uc0、uc2、ucn、ur2、ue2、wim、swm、esd、zip、zpaq

目前未掃描
Multimedia

aa、aac、aax、act、aiff、alac、amr、ape、au、awb、dss、dvf、flac、gsm、iklax、ivs、m4a、m4b、m4p、mmf、movpkg、mp3、mpc、msv、nmf、ogg、oga、mogg、opus、ra、rm、raw、rf64、sln、tta、voc、vox、wav、wma、wv、webm、8svx、cda、webm、mkv、flv、flv、vob、ogv、ogg、drc、gif、gifv、mng、avi、MTS、M2TS、TS、mov、qt、wmv、yuv、rm、rmvb、viv、asf、amv、mp4、m4p (含 DRM)、m4v、mpg、mp2、mpeg、mpe、mpv、mpg、mpeg、m2v、m4v、svi、3gp、3g2、mxf、roq、nsv、flv、f4v、f4p、f4a、f4b

目前未掃描
AI Models

caffemodel、ckpt、coreml、dlc、ggjt、ggmf、ggml、gguf、h5、keras、llamafile、mar、mleap、nc、npy、npz、onnx、pb、pkl、prompt、pt、pt2、pte、pth、ptl、safetensors、surml、tflite、tfrecords

目前未掃描
Unknown 不屬於其他叢集的任何其他檔案。 這些檔案沒有副檔名,或使用常見但非標準的副檔名,例如 .dat、.1 或 .2 目前未掃描

Cloud Storage 中無法辨識的檔案類型

如果系統在儲存空間掃描期間無法辨識檔案,預設會將檔案掃描為二進位檔案。並嘗試將內容轉換為 UTF_8,然後以純文字形式掃描。

如果在探索掃描期間無法辨識檔案,系統就不會掃描該檔案。

如果您有一系列檔案要略過,因為資料遺失防護無法辨識這些檔案,可以使用 CloudStorageOptions.file_set.regex_file_set.exclude_regex 指定排除清單。

每個檔案的掃描位元組數上限

一般來說,您可以限制每個檔案掃描的位元組數。在Google Cloud 控制台中,只要開啟取樣即可。在 Cloud Data Loss Prevention API 中,您會設定 bytes_limit_per_filebytesLimitPerFilePercent 欄位。

OCR 和智慧剖析模式不支援取樣。也就是說,當您在 OCR 或智慧型文件剖析模式下掃描下列檔案類型時,機密資料保護功能會忽略您套用的任何設定,不會限制每個檔案掃描的位元組數。

  • 圖片
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

如果以二進位模式掃描這些檔案,就會受到限制。

掃描模式

每種掃描模式都會在檢查結果中提供額外的位置詳細資料

掃描模式 附註 提供其他地點詳細資料
二進位檔

如果檔案無法剖析為任何其他類型,系統會將其轉換為 UTF_8 並掃描為文字。二進位掃描會影響偵測品質。

智慧型文件剖析

系統剖析文件時,會從格式設定中擷取出文字。 如果所在區域支援光學字元辨識 (OCR) ,系統會透過這項技術掃描嵌入的圖片。其他區域的圖片會當做二進位檔案掃描。

DocumentLocation
中繼資料擷取

系統會掃描 Cloud Storage 中的所有檔案,並在檔案內容之外,一併掃描 metadata

MetadataLocation
光學字元辨識 (OCR)

如果所在區域支援光學字元辨識 (OCR) ,系統會透過這項技術掃描圖片。其他區域的圖片會當做二進位檔案掃描。

ImageLocation
純文字

沒有其他詳細資料
結構化剖析

結構資訊會影響調查結果。在這種掃描模式下,Sensitive Data Protection 會從標頭取得背景資訊,並執行跨資料列和跨資料欄分析作業,找出相關聯的資料。舉例來說,假設街道地址的各部分散布於某列的不同資料欄,您就能透過這個掃描模式辨識完整街道地址。

掃描結果包含結構資訊,例如含有發現項目的資料列和資料欄名稱。

發現項目不會跨越表格儲存格的邊界。

RecordLocation

以結構化剖析模式掃描結構化檔案

掃描結構化檔案 (例如 Avro、CSV 或 TSV 檔案) 時,Sensitive Data Protection 會嘗試以結構化剖析掃描模式掃描檔案。與二進位掃描相比,這個掃描模式的偵測品質更優異,因為結構化剖析模式會搜尋結構化資料中的列和欄之間的相互關係。系統會傳回調查結果,以及指出調查結果位置的其他中繼資料,包括 fieldId

不過,在下列情況下,Sensitive Data Protection 可能會還原為二進位掃描模式,該模式不包含結構化剖析模式的強化功能:

  • 檔案或標頭已毀損。
  • 檢查工作設定有大小限制 (例如 bytesLimitPerFilebytesLimitPerFilePercent),但限制太小。舉例來說,如果 bytesLimitPerFile 限制不夠大,無法納入完整區塊標頭和至少一列有效資料,Sensitive Data Protection 可能會以二進位掃描模式掃描該檔案。

掃描的資料取決於取樣設定,也就是從檔案頂端或隨機位置開始掃描。

舉例來說,假設您有一個 Avro 檔案,其中包含 50 KB 的區塊標頭和 2 MB 的資料區塊。一般來說,從頂端開始取樣有助於確保 Sensitive Data Protection 擷取的樣本一律包含區塊標頭。如果您從檔案中的隨機位置開始取樣,且樣本大小小於資料區塊,則樣本可能不會包含區塊標頭。在這個範例中,將樣本大小 (由 bytesLimitPerFilebytesLimitPerFilePercent 指定) 增加至 2.05 MB,有助於防止檢查作業還原為二進位剖析模式。

範例:如果樣本大小太小,檢查可能不會包含區塊標頭。
示例:如果樣本大小過小,檢查結果可能不會包含區塊標題 (按一下即可放大)。