Übereinstimmungswahrscheinlichkeit

Die Scanergebnisse werden nach der Wahrscheinlichkeit kategorisiert, dass sie eine Übereinstimmung darstellen. Der Schutz sensibler Daten verwendet eine Bucket-basierte Darstellung der Wahrscheinlichkeit, die angeben soll, wie wahrscheinlich es ist, dass ein Datenelement mit einem bestimmten infoType übereinstimmt.

Funktionsweise der Wahrscheinlichkeit

Wenn Sie einen Sensitive Data Protection-Scan konfigurieren, legen Sie die InfoTypes fest, nach denen Sensitive Data Protection suchen soll. Wenn Sie die Scanergebnisse eingrenzen möchten, können Sie in Ihrer Anfrage eine Mindestwahrscheinlichkeit festlegen.

Für jede potenzielle Übereinstimmung (Ergebnis), die während des Scans erkannt wird, weist Sensitive Data Protection einen Wahrscheinlichkeitsgrad zu. Das Wahrscheinlichkeitsniveau eines Ergebnisses beschreibt, wie wahrscheinlich es ist, dass das Ergebnis mit einem infoType übereinstimmt, nach dem Sie suchen. Der Schutz sensibler Daten kann beispielsweise einem Ergebnis, das wie eine E-Mail-Adresse aussieht, die Wahrscheinlichkeit LIKELY zuweisen.

Wenn Sensitive Data Protection die Ergebnisse zurückgibt, werden alle Ergebnisse herausgefiltert, deren Wahrscheinlichkeit geringer ist als die Mindestwahrscheinlichkeit, die Sie in Ihrer Anfrage festgelegt haben. Wenn Sie die Mindestwahrscheinlichkeit beispielsweise auf POSSIBLE festlegen, erhalten Sie nur die Ergebnisse, die als POSSIBLE, LIKELY und VERY_LIKELY bewertet wurden. Wenn Sie die Mindestwahrscheinlichkeit auf VERY_LIKELY festlegen, erhalten Sie die geringste Anzahl von Ergebnissen.

Wahrscheinlichkeitsstufen

In der folgenden Tabelle sind die möglichen Wahrscheinlichkeitswerte aufgeführt, die Sensitive Data Protection einem Ergebnis zuweisen kann.

ENUM Beschreibung
VERY_UNLIKELY Die folgenden Merkmale sind typisch:
  • Ein schwaches Signal.
  • Fehlen von Kontextinformationen
  • Negative Signale für einen bestimmten infoType.
UNLIKELY Die folgenden Merkmale sind typisch:
  • Ein oder mehrere schwache Signale.
  • Ein stärkeres Signal für einen anderen infoType.
POSSIBLE Die folgenden Merkmale sind typisch:
  • Ein oder mehrere Signale für einen bestimmten infoType. Signale können bestandene Prüfsummen enthalten.
  • Fehlende starke kontextbezogene Hinweise und eindeutige, spezifische Formatierung.
LIKELY Gekennzeichnet durch ein oder mehrere starke Signale für einen bestimmten infoType. Signale können bestandene Prüfsummen, starke kontextbezogene Hinweise und eine eindeutige, spezifische Formatierung umfassen.
VERY_LIKELY Viele starke Signale für einen bestimmten infoType. Signale können bestandene Prüfsummen, starke kontextbezogene Hinweise und eine eindeutige, spezifische Formatierung umfassen.

Mindestwahrscheinlichkeit für die Scanergebnisse auswählen

Wenn Sie in Ihrer Sensitive Data Protection-Anfrage eine höhere Mindestwahrscheinlichkeit festlegen, enthalten die Ergebnisse in der Regel weniger Falsch-Positiv-Ergebnisse (manchmal auch als Rauschen bezeichnet). Es kann jedoch auch sein, dass mehr richtig positive Ergebnisse ausgeschlossen werden. Bei der Auswahl eines Mindestwahrscheinlichkeitsniveaus müssen Sie das richtige Gleichgewicht zwischen Trefferquote und Genauigkeit finden.

Angenommen, ein Dokument enthält 10 Adressen und der Schutz sensibler Daten hat 5 Adressen erkannt. Unter den Ergebnissen, die Sensitive Data Protection ermittelt hat, befinden sich jedoch nur 4 Straßenadressen.

  • Die Trefferquote ist die Anzahl der richtig positiven Instanzen bezogen auf die Gesamtzahl der relevanten Instanzen. In diesem Beispiel beträgt der Recall 4/10.
  • Genauigkeit ist die Anzahl der richtig positiven Instanzen im Verhältnis zur Gesamtzahl der Instanzen, die von Sensitive Data Protection identifiziert werden. In diesem Beispiel beträgt die Präzision 4/5.

In diesem Beispiel ist die Precision hoch, der Recall aber relativ niedrig.

Die von Ihnen festgelegte Mindestwahrscheinlichkeit wirkt sich auf die Trefferquote und Genauigkeit der Scanergebnisse aus. In der folgenden Tabelle wird beschrieben, wann die einzelnen Mindestwahrscheinlichkeitsstufen nützlich sind und wie sich Recall und Precision auf den einzelnen Stufen unterscheiden.

Mindestwahrscheinlichkeitsstufe Beschreibung
LIKELIHOOD_UNSPECIFIED Standardwert; identisch mit POSSIBLE.
VERY_UNLIKELY Nützlich, wenn Sie den höchsten Recall benötigen. Bei dieser Mindestwahrscheinlichkeitsstufe wird das meiste Rauschen erzeugt.
UNLIKELY Nützlich, wenn Sie einen höheren Recall benötigen. Diese Mindestwahrscheinlichkeitsstufe führt zu einem gewissen Rauschen.
POSSIBLE Nützlich, wenn Sie ein Gleichgewicht zwischen Precision und Recall anstreben.
LIKELY Nützlich, wenn Sie eine höhere Präzision auf Kosten des Recalls benötigen.
VERY_LIKELY Nützlich, wenn Sie die höchste Genauigkeit auf Kosten der Trefferquote erzielen möchten.

Standard-Mindestwahrscheinlichkeit

Wenn Sie in Ihrer Anfrage keine Mindestwahrscheinlichkeit festlegen oder sie auf LIKELIHOOD_UNSPECIFIED setzen, gibt Sensitive Data Protection nur die Ergebnisse mit einer Wahrscheinlichkeit von POSSIBLE und höher zurück.