掃描結果會根據其表示相符項目的可能性進行分類。 Sensitive Data Protection 採用特徵分塊的方式來表示可能性,藉此代表一筆資料符合特定 infoType 的可能性。
可能性運作方式
設定 Sensitive Data Protection 掃描時,您可以設定要掃描的 infoType。如要縮小掃描結果範圍,可以在要求中設定最低可能性等級。
掃描期間偵測到的每個潛在相符項目 (發現項目),Sensitive Data Protection 都會指派可能性等級。發現項目的可能性等級說明該發現項目與您掃描的 infoType 相符的可能性。舉例來說,如果發現項目類似電子郵件地址,Sensitive Data Protection 可能會指派 LIKELY
的可能性。
Sensitive Data Protection 傳回結果時,會篩除可能性低於您在要求中設定最低可能性層級的發現項目。舉例來說,如果將最低可能性設為 POSSIBLE
,則只會取得評估結果為 POSSIBLE
、LIKELY
和 VERY_LIKELY
的調查結果。如果將最低可能性設為 VERY_LIKELY
,您會得到最少的發現項目。
可能性等級
下表列出 Sensitive Data Protection 可能指派給發現項目的可能值。
ENUM | 說明 |
---|---|
VERY_UNLIKELY |
具有下列特點:
|
UNLIKELY |
具有下列特點:
|
POSSIBLE |
具有下列特點:
|
LIKELY |
具有一或多個特定 infoType 的強烈信號。信號可能包括傳遞檢查碼、強烈的脈絡線索,以及獨特且特定的格式。 |
VERY_LIKELY |
針對特定 infoType 具有許多強烈信號。 信號可能包括傳遞檢查碼、強烈的脈絡線索,以及獨特且特定的格式。 |
為掃描結果選擇最低可能性等級
一般來說,在 Sensitive Data Protection 要求中設定較高的最低可能性層級時,結果的誤判 (有時稱為「雜訊」) 數量較少。但結果也可能排除更多真正符合條件的項目。選擇最低可能性層級時,請在召回率和準確度之間取得適當平衡。
舉例來說,假設文件中有 10 個街道地址,而機密資料保護功能識別出 5 個街道地址。不過,在 Sensitive Data Protection 發現的結果中,實際上只有 4 個街道地址。
- 喚回度是指相關執行個體總數中,真陽性執行個體的數量。在本範例中,喚回度為 4/10。
- 精確度是指 Sensitive Data Protection 識別出的執行個體總數中,真正屬於正向的執行個體數量。在本例中,精確度為 4/5。
在這個例子中,精確度很高,但喚回度相對較低。
您設定的最低可能性層級會影響掃描結果的喚回度和精確度。下表說明各個最低可能性等級的適用時機,以及各等級的召回率和準確率差異。
最低可能性等級 | 說明 |
---|---|
LIKELIHOOD_UNSPECIFIED |
預設值,與 POSSIBLE 相同。 |
VERY_UNLIKELY |
如果您需要最高召回率,這項功能就非常實用。這個最低可能性層級會產生最多雜訊。 |
UNLIKELY |
如果需要較高的召回率,這項功能就非常實用。這個最低可能性層級會產生一些雜訊。 |
POSSIBLE |
如要在精確度與喚回度之間取得平衡,這項指標即可派上用場。 |
LIKELY |
如果需要更高的精確度,但可犧牲部分召回率,這項功能就非常實用。 |
VERY_LIKELY |
如果想以喚回度為代價,換取最高精確度,這個方法就非常實用。 |
預設最低可能性
如果未在要求中設定最低可能性,或將其設為 LIKELIHOOD_UNSPECIFIED
,Sensitive Data Protection 只會傳回可能性為 POSSIBLE
以上的發現項目。