Métricas de sesgo de datos para Vertex AI

En esta página, se describen las métricas de evaluación que puedes usar para detectar el sesgo de los datos, que puede aparecer en los datos sin procesar y los valores de verdad fundamental incluso antes de entrenar el modelo. Para los ejemplos y la notación de esta página, usamos un conjunto de datos hipotético de solicitud universitaria que se describe en detalle en Introducción a la evaluación de modelos para la equidad.

Para obtener descripciones de las métricas que se generan a partir de datos posteriores al entrenamiento, consulta Métricas de sesgo del modelo.

Descripción general

En nuestro conjunto de datos de solicitud de universidad de ejemplo, tenemos 200 empleados de California en la porción 1 y 100 a solicitantes de Florida en la porción 2, etiquetados de la siguiente manera:

Porción Rechazar Aceptar
California 140 60
Florida 80 20

En general, puedes interpretar el signo de la mayoría de las métricas de la siguiente manera:

  • Valor positivo: indica un posible sesgo que favorece la porción 1 sobre la porción 2.

  • Valor cero: Indica que no hay sesgo entre la porción 1 y la porción 2.

  • Valor negativo: indica un posible sesgo a favor de la porción 2 sobre la porción 1.

Tomamos nota de los casos en los que esto no se aplica a una métrica.

Diferencia en el tamaño de la población

La diferencia en el tamaño de la población mide si hay más ejemplos en la porción 1 en comparación con la porción 2, normalizada por la población total de las dos porciones:

$$ \frac{n_1-n_2}{n_1+n_2} $$

(población total de la porción 1 - población total de la porción 2)/ (suma de las poblaciones de las porciones 1 y 2)

En nuestro conjunto de datos de ejemplo:

(200 solicitantes de California - 100 empleados de Florida)/ 300 solicitantes en total = 100/300 = 0.33.

El valor positivo de la diferencia en el tamaño de la población indica que hay una proporción desproporcionada de postulantes de California en comparación con los de Florida. El valor positivo puede indicar o no sesgo por sí solo, pero cuando un modelo se entrena con estos datos, puede aprender a tener un mejor rendimiento para los postulantes de California.

Diferencia en proporciones positivas en etiquetas verdaderas (DPPTL)

La diferencia en proporciones positivas en etiquetas verdaderas mide si un conjunto de datos tiene etiquetas de verdad fundamental de manera desproporcionada para una porción sobre la otra. Esta métrica calcula la diferencia en las proporciones positivas en las etiquetas verdaderas entre la porción 1 y la porción 2, en la que las proporciones positivas en las etiquetas verdaderas para una porción es (resultados positivos etiquetados / tamaño total de la población). Esta métrica también se conoce como desequilibrio de etiquetas:

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(Resultados positivos etiquetados para la porción 1/Tamaño total de la población de la porción 1) - (Resultados positivos etiquetados para la porción 2/Tamaño total de la población de la porción 2)

En nuestro conjunto de datos de ejemplo:

(60 solicitantes de California aceptados/200 solicitantes de California) - (20 solicitantes de California aceptados/100 empleados de Florida) = 60/200 - 20/100 = 0.1.

El valor positivo del DPPTL indica que el conjunto de datos tiene resultados positivos desproporcionadamente más altos para los solicitantes de California en comparación con los de Florida. El valor positivo puede o no indicar sesgo por sí solo, pero cuando un modelo se entrena con estos datos, puede aprender a predecir resultados más positivos de manera desproporcionada para los postulantes de California.

¿Qué sigue?