Métricas de sesgo de modelos en Vertex AI

En esta página se describen las métricas de evaluación de modelos que puede usar para detectar sesgos en los modelos, que pueden aparecer en la salida de predicción del modelo después de entrenarlo. En los ejemplos y la notación de esta página, usamos un conjunto de datos hipotético de solicitudes de acceso a una universidad que describimos en detalle en el artículo Introducción a la evaluación de modelos para la equidad.

Para ver las descripciones de las métricas que se generan a partir de los datos de preentrenamiento, consulta Métricas de sesgo de los datos.

Información general

En nuestro ejemplo de conjunto de datos de solicitudes de acceso a la universidad, tenemos 200 solicitantes de California en la porción 1 y 100 de Florida en la porción 2. Después de entrenar el modelo, tenemos las siguientes matrices de confusión:

Solicitantes de California Aceptaciones (predichas) Rechazos (previstos)
Aceptaciones (datos verificados) 50 (verdadero positivo) 10 (falso negativo)
Rechazos (datos verificados) 20 (falso positivo) 120 (negativo verdadero)
Solicitantes de Florida Aceptaciones (predichas) Rechazos (previstos)
Aceptaciones (datos verificados) 20 (positivo verdadero) 0 (falso negativo)
Rechazos (datos verificados) 30 (falso positivo) 50 (negativo verdadero)

Por lo general, el signo de la mayoría de las métricas se interpreta de la siguiente manera:

  • Valor positivo: indica un posible sesgo a favor del segmento 1 con respecto al segmento 2.

  • Valor cero: indica que no hay sesgo entre la porción 1 y la porción 2.

  • Valor negativo: indica un posible sesgo a favor del segmento 2 frente al segmento 1.

Indicamos en qué casos no se aplica a una métrica.

Diferencia de precisión

Diferencia de precisión mide la diferencia de precisión entre el segmento 1 y el segmento 2:

$$ \frac{tp_1 + tn_1}{n_1} - \frac{tp_2 + tn_2}{n_2} $$

((Verdaderos positivos del segmento 1 + Verdaderos negativos del segmento 1)/Número total de instancias del segmento 1) - ((Verdaderos positivos del segmento 2 + Verdaderos negativos del segmento 2)/Número total de instancias del segmento 2)

En nuestro conjunto de datos de ejemplo:

((50 solicitudes de California aceptadas correctamente + 120 solicitudes de California rechazadas correctamente)/ 200 solicitantes de California) - ((20 solicitudes de Florida aceptadas correctamente + 50 solicitudes de Florida rechazadas correctamente)/ 100 solicitantes de Florida) = 170/200 - 70/100 = 0,15

El valor positivo de la diferencia de precisión indica que el modelo es más preciso para los solicitantes de California que para los de Florida. Esto podría indicar un posible sesgo a favor de los solicitantes de California.

Diferencia en las proporciones de positivos en las etiquetas predichas (DPPPL)

La diferencia en las proporciones positivas de las etiquetas predichas (DPPPL) mide si el modelo tiende a hacer predicciones positivas de forma desproporcionada para una porción en comparación con otra. DPPPL calcula la diferencia de proporciones positivas en las etiquetas predichas, donde las proporciones positivas en las etiquetas predichas son (resultados positivos predichos/número total de instancias) de un segmento:

$$ \frac{tp_1 + fp_1}{n_1} - \frac{tp_2 + fp_2}{n_2} $$

((Verdaderos positivos de la porción 1 + Falsos positivos de la porción 1)/Número total de instancias de la porción 1) - ((Verdaderos positivos de la porción 2 + Falsos positivos de la porción 2)/Número total de instancias de la porción 2)

En nuestro conjunto de datos de ejemplo:

((50 solicitudes de California predichas correctamente + 20 solicitudes de California predichas incorrectamente)/ 200 solicitantes de California) - ((20 solicitudes de Florida predichas correctamente + 30 solicitudes de Florida predichas incorrectamente)/ 100 solicitantes de Florida) = 70/200 - 50/100 = -0,15

El valor negativo de DPPPL indica que el modelo acepta de forma desproporcionada a más solicitantes de Florida que de California.

Diferencia de recuperación

La diferencia de recuerdo mide la diferencia de recuerdo entre el segmento 1 y el segmento 2, y solo tiene en cuenta los resultados positivos etiquetados. La diferencia de recuerdo también se puede denominar igualdad de oportunidades.

$$ \frac{tp_1}{l^1_1} - \frac{tp_2}{l^1_2} $$

(Positivos verdaderos del segmento 1/(Positivos verdaderos del segmento 1 + Negativos falsos del segmento 1)) - (Positivos verdaderos del segmento 2/(Positivos verdaderos del segmento 2 + Negativos falsos del segmento 2))

En nuestro conjunto de datos de ejemplo:

(50 solicitudes de California aceptadas correctamente/(50 solicitudes de California aceptadas correctamente + 10 solicitudes de California rechazadas incorrectamente)) - (20 solicitudes de Florida aceptadas correctamente/(20 solicitudes de Florida aceptadas correctamente + 0 solicitudes de Florida rechazadas incorrectamente)) = 50/60 - 20/20 = -0,17

El valor negativo indica que el modelo es mejor a la hora de recordar a los solicitantes de Florida que a los de California. Es decir, el modelo tiende a ser más preciso en sus decisiones de aceptación para los solicitantes de Florida que para los de California.

Diferencia de especificidad

La diferencia de especificidad mide la diferencia de especificidad, también conocida como tasa de verdaderos negativos, entre el segmento 1 y el segmento 2. Podemos considerarlo como la diferencia de recuerdo, pero para los resultados negativos etiquetados:

$$ \frac{tn_1}{l^0_1} - \frac{tn_2}{l^0_2} $$

(Negativos verdaderos de la porción 1/(Negativos verdaderos de la porción 1 + Falsos positivos de la porción 1)) - (Negativos verdaderos de la porción 2/(Negativos verdaderos de la porción 2 + Falsos positivos de la porción 2))

En nuestro conjunto de datos de ejemplo:

(120 rechazos de California predichos correctamente/(120 rechazos de California predichos correctamente + 20 aceptaciones de California predichas incorrectamente)) - (50 rechazos de Florida predichos correctamente/(50 rechazos de Florida predichos correctamente + 30 aceptaciones de Florida predichas incorrectamente)) = 120/140 - 50/80 = 0,23

El valor positivo indica que, en el caso de las solicitudes rechazadas, el modelo tiene una mejor recuperación para los solicitantes de California que para los de Florida. Es decir, el modelo tiende a ser más preciso en sus decisiones de rechazo de los solicitantes de California que de los de Florida.

Diferencia en la proporción de tipos de errores

La diferencia en la proporción de tipos de error mide la diferencia en la forma en que se distribuyen los errores (falsos negativos y falsos positivos) entre las porciones 1 y 2. La proporción del tipo de error se calcula como (falsos negativos [error de tipo I] / falsos positivos [error de tipo II]). La diferencia en la proporción de tipos de errores también se puede denominar igualdad de tratamiento.

$$ \frac{fn_1}{fp_1} - \frac{fn_2}{fp_2} $$

(Falsos negativos de la porción 1/Falsos positivos de la porción 1) - (Falsos negativos de la porción 2/Falsos positivos de la porción 2)

En nuestro conjunto de datos de ejemplo:

(10 rechazos de California predichos incorrectamente/20 aceptaciones de California predichas incorrectamente) - (0 rechazos de Florida predichos incorrectamente/30 aceptaciones de Florida predichas incorrectamente) = (10/20 - 0/30) = 0,5

Aunque el modelo comete 30 errores tanto para los solicitantes de California como para los de Florida, el valor positivo de Diferencia en la proporción de tipos de error indica que el modelo tiende a predecir en exceso los resultados positivos (falsos positivos más altos) y, por lo tanto, a predecir en defecto los resultados negativos (errores de falsos negativos más bajos) para los solicitantes de California, en comparación con los de Florida.

El signo de la diferencia en la proporción de tipos de errores se puede interpretar de la siguiente manera:

  • Valor positivo: indica que el modelo comete de forma desproporcionada más errores de falsos positivos que de falsos negativos en la porción 1.

  • Valor cero: indica que el modelo comete el mismo número de errores de falsos positivos en ambos segmentos.

  • Valor negativo: indica que el modelo comete proporcionalmente más errores de falsos positivos que de falsos negativos en la porción 2.

El signo de esta métrica no indica necesariamente que el modelo tenga sesgos, ya que la nocividad de los falsos negativos o los falsos positivos depende de la aplicación del modelo.

Siguientes pasos