Probabilidad de coincidencia

Los resultados del análisis se clasifican según la probabilidad que tienen de representar una coincidencia. Sensitive Data Protection usa una representación de probabilidad separada en depósitos que se usa para indicar qué tan probable es que un dato coincida con un infoType particular.

Cómo funciona la probabilidad

Cuando configuras un análisis de Sensitive Data Protection, estableces los infoTypes que quieres que Sensitive Data Protection detecte. Para reducir los resultados del análisis, puedes establecer un nivel de probabilidad mínimo en tu solicitud.

Para cada posible coincidencia (resultado) que se detecta durante el análisis, la Protección de datos sensibles asigna un nivel de probabilidad. El nivel de probabilidad de un hallazgo describe la probabilidad de que el hallazgo coincida con un infotipo que estás buscando. Por ejemplo, Sensitive Data Protection podría asignar una probabilidad de LIKELY a un hallazgo que parece una dirección de correo electrónico.

Cuando Sensitive Data Protection devuelve los resultados, filtra los hallazgos que tienen una probabilidad inferior al nivel de probabilidad mínimo que estableciste en tu solicitud. Por ejemplo, si estableces la probabilidad mínima en POSSIBLE, solo obtendrás los hallazgos que se evaluaron como POSSIBLE, LIKELY y VERY_LIKELY. Si estableces la probabilidad mínima en VERY_LIKELY, obtendrás la menor cantidad de hallazgos.

Niveles de probabilidad

En la siguiente tabla, se enumeran los posibles valores de probabilidad que la Protección de datos sensibles puede asignar a un hallazgo.

ENUM Descripción
VERY_UNLIKELY Se caracteriza por lo siguiente:
  • La señal es débil.
  • Ausencia de indicios contextuales
  • Son indicadores negativos para un Infotipo determinado.
UNLIKELY Se caracteriza por lo siguiente:
  • Uno o más indicadores débiles.
  • Un indicador más sólido para otro Infotipo.
POSSIBLE Se caracteriza por lo siguiente:
  • Uno o más indicadores hacia un Infotipo determinado. Los indicadores pueden incluir sumas de verificación aprobadas.
  • Falta de una pista contextual sólida y un formato único y específico
LIKELY Se caracteriza por uno o más indicadores sólidos para un Infotipo determinado. Los indicadores pueden incluir sumas de verificación aprobadas, pistas contextuales sólidas y un formato único y específico.
VERY_LIKELY Se caracteriza por tener muchos indicadores sólidos para un Infotipo determinado. Los indicadores pueden incluir sumas de verificación aprobadas, pistas contextuales sólidas y un formato único y específico.

Cómo elegir un nivel de verosimilitud mínimo para los resultados del análisis

En general, cuando estableces un nivel de probabilidad mínimo más alto en tu solicitud de Sensitive Data Protection, los resultados tienen una menor cantidad de falsos positivos (a veces denominados ruido). Sin embargo, los resultados también pueden excluir más positivos verdaderos. Elegir un nivel de verosimilitud mínimo implica encontrar el equilibrio adecuado entre la recuperación y la precisión.

Por ejemplo, supongamos que hay 10 direcciones en un documento y la Protección de datos sensibles identificó 5. Sin embargo, entre los hallazgos que identificó Sensitive Data Protection, en realidad solo hay 4 direcciones de calles.

  • La recuperación es la cantidad de instancias positivas verdaderas del total de instancias relevantes. En este ejemplo, la recuperación es de 4/10.
  • La precisión es la cantidad de instancias de verdaderos positivos del total de instancias que identifica la Protección de datos sensibles. En este ejemplo, la precisión es de 4/5.

En este ejemplo, la precisión es alta, pero la recuperación es relativamente baja.

El nivel de probabilidad mínimo que estableces afecta el nivel de recuperación y precisión que obtienes en los resultados del análisis. En la siguiente tabla, se describe cuándo es útil cada nivel de verosimilitud mínima y cómo varían la recuperación y la precisión en cada nivel.

Nivel de probabilidad mínimo Descripción
LIKELIHOOD_UNSPECIFIED Valor predeterminado; igual que POSSIBLE.
VERY_UNLIKELY Es útil si necesitas la mayor recuperación posible. Este nivel de probabilidad mínimo genera la mayor cantidad de ruido.
UNLIKELY Es útil si necesitas una recuperación más alta. Este nivel mínimo de probabilidad genera algo de ruido.
POSSIBLE Es útil si deseas un equilibrio entre la precisión y la recuperación.
LIKELY Es útil si necesitas una mayor precisión a expensas de una menor recuperación.
VERY_LIKELY Es útil si deseas la mayor precisión a expensas de la recuperación.

Probabilidad mínima predeterminada

Si no estableces una probabilidad mínima en tu solicitud o si la estableces en LIKELIHOOD_UNSPECIFIED, la Protección de datos sensibles solo devolverá los resultados con una probabilidad de POSSIBLE o superior.