相符可能性

掃描結果會根據其表示相符項目的可能性進行分類。 Sensitive Data Protection 採用特徵分塊的方式來表示可能性,藉此代表一筆資料符合特定 infoType 的可能性。

可能性運作方式

設定 Sensitive Data Protection 掃描時,您可以設定要掃描的 infoType。如要縮小掃描結果範圍,可以在要求中設定最低可能性等級

掃描期間偵測到的每個潛在相符項目 (發現項目),Sensitive Data Protection 都會指派可能性等級。發現項目的可能性等級說明該發現項目與您掃描的 infoType 相符的可能性。舉例來說,如果發現項目類似電子郵件地址,Sensitive Data Protection 可能會指派 LIKELY 的可能性。

Sensitive Data Protection 傳回結果時,會篩除可能性低於您在要求中設定最低可能性層級的發現項目。舉例來說,如果將最低可能性設為 POSSIBLE,則只會取得評估結果為 POSSIBLELIKELYVERY_LIKELY 的調查結果。如果將最低可能性設為 VERY_LIKELY,您會得到最少的發現項目。

可能性等級

下表列出 Sensitive Data Protection 可能指派給發現項目的可能值。

ENUM 說明
VERY_UNLIKELY 具有下列特點:
  • 訊號微弱。
  • 缺乏情境線索。
  • 特定 infoType 的負面信號。
UNLIKELY 具有下列特點:
  • 一或多個信號強度較弱。
  • 其他 infoType 的信號強度較高。
POSSIBLE 具有下列特點:
  • 針對特定 infoType 的一或多個信號。信號可包括通過檢查碼。
  • 缺少強烈的脈絡線索和獨特的特定格式。
LIKELY 具有一或多個特定 infoType 的強烈信號。信號可能包括傳遞檢查碼、強烈的脈絡線索,以及獨特且特定的格式。
VERY_LIKELY 針對特定 infoType 具有許多強烈信號。 信號可能包括傳遞檢查碼、強烈的脈絡線索,以及獨特且特定的格式。

為掃描結果選擇最低可能性等級

一般來說,在 Sensitive Data Protection 要求中設定較高的最低可能性層級時,結果的誤判 (有時稱為「雜訊」) 數量較少。但結果也可能排除更多真正符合條件的項目。選擇最低可能性層級時,請在召回率和準確度之間取得適當平衡。

舉例來說,假設文件中有 10 個街道地址,而機密資料保護功能識別出 5 個街道地址。不過,在 Sensitive Data Protection 發現的結果中,實際上只有 4 個街道地址。

  • 喚回度是指相關執行個體總數中,真陽性執行個體的數量。在本範例中,喚回度為 4/10。
  • 精確度是指 Sensitive Data Protection 識別出的執行個體總數中,真正屬於正向的執行個體數量。在本例中,精確度為 4/5。

在這個例子中,精確度很高,但喚回度相對較低。

您設定的最低可能性層級會影響掃描結果的喚回度和精確度。下表說明各個最低可能性等級的適用時機,以及各等級的召回率和準確率差異。

最低可能性等級 說明
LIKELIHOOD_UNSPECIFIED 預設值,與 POSSIBLE 相同。
VERY_UNLIKELY 如果您需要最高召回率,這項功能就非常實用。這個最低可能性層級會產生最多雜訊。
UNLIKELY 如果需要較高的召回率,這項功能就非常實用。這個最低可能性層級會產生一些雜訊。
POSSIBLE 如要在精確度與喚回度之間取得平衡,這項指標即可派上用場。
LIKELY 如果需要更高的精確度,但可犧牲部分召回率,這項功能就非常實用。
VERY_LIKELY 如果想以喚回度為代價,換取最高精確度,這個方法就非常實用。

預設最低可能性

如果未在要求中設定最低可能性,或將其設為 LIKELIHOOD_UNSPECIFIED,Sensitive Data Protection 只會傳回可能性為 POSSIBLE 以上的發現項目。