本頁面列出 Sensitive Data Protection 的已知問題,以及如何避免或解決這些問題。
將結果儲存至 BigQuery
當工作或探索掃描將結果儲存至 BigQuery 時,記錄檔中會顯示 Already exists
錯誤。這項錯誤並不表示有問題,結果會照常儲存。
BigQuery 掃描
本節說明檢查或剖析 BigQuery 資料時可能遇到的問題。
檢查和剖析作業的常見問題
下列問題適用於 BigQuery 檢查和剖析作業。
無法掃描設有資料列層級安全防護機制的資料列
資料列層級安全防護政策可能會導致 Sensitive Data Protection 無法檢查及剖析受保護的 BigQuery 資料表。如果 BigQuery 資料表套用了資料列層級安全政策,建議您設定 TRUE 篩選器,並在受讓人清單中加入服務代理程式:
- 如果在機構或資料夾層級剖析資料,請將容器專案的服務代理納入授予對象清單。
- 如果您在專案層級分析資料,或對資料表執行檢查工作,請將專案的服務代理程式加入受讓人清單。
重複資料列
將資料寫入 BigQuery 資料表時,Sensitive Data Protection 可能會寫入重複的資料列。
最近串流的資料
Sensitive Data Protection 不會掃描最近串流的資料 (舊稱「串流緩衝區」)。詳情請參閱 BigQuery 說明文件中的串流資料可用性。
BigQuery 檢查問題
下列問題僅適用於 BigQuery 資料的檢查作業。不會影響資料設定檔。
匯出的發現項目沒有 row_number 欄位的值
設定 Sensitive Data Protection 將發現項目儲存至 BigQuery 時,系統會在掃描輸入資料表時推斷所產生 BigQuery 資料表中的 location.content_locations.record_location.record_key.big_query_key.row_number
欄位。這個值不具決定性,無法查詢,且檢測工作的值可能為空值。
如要找出有發現項目的特定資料列,請在建立工作時指定 inspectJob.storageConfig.bigQueryOptions.identifyingFields
。
識別欄位位於產生的 BigQuery 資料表,在 location.content_locations.record_location.record_key.id_values
欄位中。
僅掃描新的 BigQuery 內容
如果您只掃描新內容,並使用 BigQuery Storage Write API 填入輸入資料表,Sensitive Data Protection 可能會略過部分資料列的掃描作業。
如要解決這個問題,請在檢查工作中,確認 timestampField
物件的 TimespanConfig
是 BigQuery 自動產生的提交時間戳記。不過,由於資料遺失防護不會讀取最近串流的資料,因此仍無法保證不會略過任何資料列。
如要為資料欄自動產生提交時間戳記,並使用舊版串流 API 填入輸入資料表,請按照下列步驟操作:
在輸入資料表的結構定義中,確認時間戳記資料欄的類型為
TIMESTAMP
。結構定義範例
下列範例會定義
commit_time_stamp
欄位,並將其類型設為TIMESTAMP
:... { "name": "commit_time_stamp", "type": "TIMESTAMP" } ...
在
tabledata.insertAll
方法的rows[].json
欄位中,確認時間戳記欄中的值已設為AUTO
。JSON 範例
以下範例會將
commit_time_stamp
欄位的值設為AUTO
:{ ... "commit_time_stamp": "AUTO", ... }
設定百分比或列數上限,限制掃描次數
如果根據表格總列數的百分比設定取樣限制 (rowsLimitPercent
),Sensitive Data Protection 可能會檢查超出預期的列數。如要對掃描的資料列數量設下硬性限制,建議改為設定資料列數量上限 (rowsLimit
)。
BigQuery 剖析問題
下列問題僅適用於 BigQuery 資料的剖析作業。詳情請參閱「BigQuery 資料分析器」。
資料表超過 5 億個的機構或專案
如果機構或專案的資料表超過 5 億張,嘗試剖析時,Sensitive Data Protection 會傳回錯誤。如果遇到這項錯誤,請按照錯誤訊息中的指示操作。
如果貴機構的資料表數量超過 5 億個,且您有資料表數量較少的專案,請改為進行專案層級掃描。
如要瞭解資料表和資料欄限制,請參閱「資料剖析限制」。
檢查範本
檢查範本必須與要剖析的資料位於相同區域。如果資料遍布多個區域,請使用多個檢查範本,每個資料所在區域各使用一個範本。您也可以使用儲存在 global
區域的檢查範本。
如果您在 global
區域中加入範本,Sensitive Data Protection 會將其用於沒有區域專屬範本的任何資料。詳情請參閱「資料落地注意事項」。
已儲存的 infoType
檢查範本中參照的「儲存的 infoType」(也稱為「儲存的自訂字典偵測工具」),必須儲存在下列任一位置:
global
地區。- 與檢查範本相同的地區。
否則,剖析作業會失敗並顯示 Resource not found
錯誤。
資源瀏覽權限
在資料表資料剖析中,系統會根據資料表所屬資料集的顯示狀態,而非資料表的顯示狀態,為 BigQuery 資料表提供資源顯示狀態分類。因此,如果資料表的 IAM 權限與資料集的 IAM 權限不同,資料剖析中顯示的資料表資源可見度可能不正確。這項問題會影響 BigQuery 的探索功能和 Vertex AI 的探索功能。
在 Google Cloud 控制台中,資源的顯示狀態會顯示在資料表資料剖析的「Public」(公開) 欄位中。在 Cloud Data Loss Prevention API 中,資源可見度會顯示在 TableDataProfile
的 resourceVisibility
欄位中。
掃描 Cloud Storage
使用大型自訂字典偵測工具檢查 XLSX 檔案
使用大型自訂字典偵測工具 (也稱為儲存的自訂字典偵測工具) 檢查 Microsoft Excel .xlsx
檔案時,檢查工作可能會執行緩慢、看似停滯,並產生大量Cloud Storage Class B 作業。這是因為 Sensitive Data Protection 可能會針對 .xlsx
檔案中的每個儲存格,讀取大型自訂字典的來源字詞清單一次。讀取作業量過大可能會導致 Sensitive Data Protection 檢查工作進度緩慢,甚至停滯不前。
如要進一步瞭解相關的 Cloud Storage 帳單費用,請參閱作業費用中的 B 類作業費用。
系統不支援檢查嚴格 XLSX 檔案
副檔名為 .xlsx
的檔案有兩種可能。其中一種是嚴格的 Office Open XML 試算表,但機密資料保護功能不支援這類檔案。另一種是預設的 Microsoft Excel 活頁簿,這類檔案受到支援。
以二進位模式掃描的結構化檔案
在某些情況下,通常以結構化剖析模式掃描的檔案可能會以二進位模式掃描,這不包括結構化剖析模式的強化功能。詳情請參閱以結構化剖析模式掃描結構化檔案。
將分隔符號檔案去識別化
使用檢查工作去識別化定界檔案 (例如 CSV 檔案) 時,輸出內容的部分資料列可能會出現額外的空白儲存格。如要避免這些額外儲存格,請改用 content.deidentify
方法來去識別化資料。
Cloud SQL 的探索功能
Security Command Center 重複發現項目
Cloud SQL 資料剖析支援將發現項目發布至 Security Command Center。
在 2024 年 4 月 25 日前,由於發生錯誤,Sensitive Data Protection 偶爾會在 Security Command Center 中,為 Cloud SQL 執行個體產生重複的發現項目。這些結果是使用專屬的結果 ID 產生,但都與相同的 Cloud SQL 執行個體有關。問題已解決,但重複的發現項目仍存在。您可以略過重複項目,在 Security Command Center 的「發現項目」頁面隱藏這些項目。
Amazon S3 探索
Sensitive Data Protection 傳送至 Security Command Center 的 Amazon S3 發現項目,可能沒有受影響資源的 AWS 帳戶 ID 或顯示名稱資訊。通常發生於下列情況:
- 發現項目傳送至 Security Command Center 時,AWS 連接器的有效時間只剩約 24 小時。
- 發現結果傳送至 Security Command Center 時,該 AWS 帳戶加入 AWS 連接器僅約 24 小時。
如要解決這個問題,請在約 24 小時後刪除資料剖析檔,或設定剖析時間表,重新產生資料剖析檔。系統會將完整的發現項目詳細資料傳送至 Security Command Center。
智慧型文件剖析
本節包含與文件剖析相關的已知問題。
未填入 DocumentLocation
物件
在「智慧文件剖析」掃描模式下,系統不會填入 location.content_locations.document_location.file_offset
欄位。
偵測
以下已知問題說明偵測問題,與您執行的作業 (檢查、去識別化或探索) 無關。
字典字詞
如果字典字詞包含 Unicode 標準增補多語平面中的字元,可能會導致非預期的發現項目。這類字元包括表情符號、科學符號和歷史文字。
排除規則
排除規則無法套用至物件 InfoType。