Probabilidad de coincidencia

Los resultados del análisis se clasifican según la probabilidad que tienen de representar una coincidencia. Sensitive Data Protection usa una representación de probabilidad separada en depósitos que se usa para indicar qué tan probable es que un dato coincida con un infoType determinado.

Cómo funciona la probabilidad

Cuando configuras un análisis de Protección de datos sensibles, estableces los infotipos que quieres que analice. Para acotar los resultados de la búsqueda, puedes establecer un nivel de probabilidad mínimo en tu solicitud.

Para cada coincidencia potencial (resultado) que se detecta durante el análisis, la Protección de datos sensibles asigna un nivel de probabilidad. El nivel de probabilidad de un resultado describe la probabilidad de que coincida con un infotipo que estás analizando. Por ejemplo, Sensitive Data Protection podría asignar una probabilidad de LIKELY a un resultado que se parece a una dirección de correo electrónico.

Cuando Sensitive Data Protection muestra los resultados, filtra los hallazgos que tienen una probabilidad menor que el nivel mínimo de probabilidad que estableciste en tu solicitud. Por ejemplo, si estableces la probabilidad mínima en POSSIBLE, solo obtendrás los resultados que se evaluaron como POSSIBLE, LIKELY y VERY_LIKELY. Si estableces la probabilidad mínima en VERY_LIKELY, obtendrás la menor cantidad de resultados.

Niveles de probabilidad

En la siguiente tabla, se enumeran los posibles valores de probabilidad que la Protección de datos sensibles puede asignar a un hallazgo.

ENUM Descripción
VERY_UNLIKELY Se caracteriza por lo siguiente:
  • Una señal débil.
  • Ausencia de pistas contextuales
  • Indicadores negativos para un Infotipo determinado.
UNLIKELY Se caracteriza por lo siguiente:
  • Uno o más indicadores débiles
  • Un indicador más fuerte para otro Infotipo.
POSSIBLE Se caracteriza por lo siguiente:
  • Uno o más indicadores hacia un Infotipo determinado. Los indicadores pueden incluir sumas de comprobación aprobadas.
  • Falta de una clara pista contextual y un formato único y específico.
LIKELY Se caracterizan por uno o más indicadores sólidos para un Infotipo determinado. Los indicadores pueden incluir sumas de comprobación aprobadas, pistas contextuales sólidas y un formato único y específico.
VERY_LIKELY Se caracterizan por tener muchos indicadores sólidos para un Infotipo determinado. Los indicadores pueden incluir sumas de comprobación aprobadas, pistas contextuales sólidas y un formato único y específico.

Elige un nivel mínimo de probabilidad para los resultados del análisis

En general, cuando estableces un nivel mínimo de probabilidad más alto en tu solicitud de Protección de datos sensibles, los resultados tienen una menor cantidad de falsos positivos (a veces llamados ruido). Sin embargo, los resultados también pueden excluir más verdaderos positivos. Elegir un nivel mínimo de probabilidad implica encontrar el equilibrio correcto entre la recuperación y la precisión.

Por ejemplo, supongamos que hay 10 direcciones en un documento y la Protección de datos sensibles identificó 5 direcciones. Sin embargo, entre los hallazgos que identificó la Protección de datos sensibles, en realidad solo hay 4 direcciones.

  • La recuperación es la cantidad de instancias de verdaderos positivos de la cantidad total de instancias relevantes. En este ejemplo, la recuperación es 4/10.
  • La precisión es la cantidad de instancias de verdaderos positivos del total de instancias que identifica la Protección de datos sensibles. En este ejemplo, la precisión es 4/5.

En este ejemplo, la precisión es alta, pero la recuperación es relativamente baja.

El nivel de probabilidad mínimo que establezcas afectará el nivel de recuperación y precisión que obtengas en los resultados del análisis. En la siguiente tabla, se describe cuándo es útil cada nivel de probabilidad mínima y cómo varían la recuperación y la precisión en cada nivel.

Nivel de probabilidad mínimo Descripción
LIKELIHOOD_UNSPECIFIED Valor predeterminado; igual que POSSIBLE.
VERY_UNLIKELY Es útil si necesitas la recuperación más alta. Este nivel mínimo de probabilidad genera la mayor cantidad de ruido.
UNLIKELY Es útil si necesitas una recuperación más alta. Este nivel mínimo de probabilidad genera cierto ruido.
POSSIBLE Es útil si deseas un equilibrio entre la precisión y la recuperación.
LIKELY Es útil si necesitas una precisión más alta a costa de la recuperación.
VERY_LIKELY Es útil si deseas obtener la mayor precisión a costa de la recuperación.

Probabilidad mínima predeterminada

Si no estableces una probabilidad mínima en tu solicitud o si la estableces en LIKELIHOOD_UNSPECIFIED, la Protección de datos sensibles solo muestra los resultados con una probabilidad de POSSIBLE o superior.