Se usó la API de Cloud Translation para traducir esta página.

Métricas de sesgo de datos para Vertex AI

En esta página, se describen las métricas de evaluación que puedes usar para detectar el sesgo de los datos, que puede aparecer en los datos sin procesar y en los valores de verdad fundamental incluso antes de entrenar el modelo. Para los ejemplos y la notación de esta página, usamos un conjunto de datos hipotético de solicitud de ingreso a la universidad que se describe en detalle en Introducción a la evaluación de modelos para la equidad.

Para obtener descripciones de las métricas que se generan a partir de los datos posteriores al entrenamiento, consulta Métricas de sesgo del modelo.

Descripción general

En nuestro conjunto de datos de solicitud de universidad de ejemplo, tenemos 200 empleados de California en la porción 1 y 100 a solicitantes de Florida en la porción 2, etiquetados de la siguiente manera:

Porción	Rechazar	Aceptar
California	140	60
Florida	80	20

En general, puedes interpretar el signo de la mayoría de las métricas de la siguiente manera:

Valor positivo: indica un posible sesgo que favorece la porción 1 sobre la porción 2.
Valor cero: Indica que no hay sesgo entre la porción 1 y la porción 2.
Valor negativo: indica un posible sesgo a favor de la porción 2 sobre la porción 1.

Hacemos una nota cuando esto no se aplica a una métrica.

Diferencia en el tamaño de la población

La diferencia en el tamaño de la población mide si hay más ejemplos en la porción 1 en comparación con la porción 2, normalizada por la población total de las dos porciones:

$$ \frac{n_1-n_2}{n_1+n_2} $$

(Población total de la porción 1 - Población total de la porción 2)/(Suma de las poblaciones de las porciones 1 y 2)

En nuestro conjunto de datos de ejemplo:

(200 solicitantes de California - 100 empleados de Florida)/ 300 solicitantes en total = 100/300 = 0.33.

El valor positivo de la diferencia en el tamaño de la población indica que hay una cantidad desproporcionadamente mayor de solicitantes de California que de Florida. El valor positivo puede indicar o no sesgo por sí solo, pero cuando se entrena un modelo con estos datos, es posible que el modelo aprenda a funcionar mejor para los solicitantes de California.

Diferencia en las proporciones positivas en las etiquetas verdaderas (DPPTL)

La diferencia en proporciones positivas en etiquetas verdaderas mide si un conjunto de datos tiene etiquetas de verdad fundamental de manera desproporcionada para una porción sobre la otra. Esta métrica calcula la diferencia en las proporciones positivas en las etiquetas verdaderas entre la porción 1 y la porción 2, en la que las proporciones positivas en las etiquetas verdaderas para una porción es (resultados positivos etiquetados / tamaño total de la población). Esta métrica también se conoce como desequilibrio de etiquetas:

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(Resultados positivos etiquetados para la porción 1/Tamaño total de la población de la porción 1) - (Resultados positivos etiquetados para la porción 2/Tamaño total de la población de la porción 2)

En nuestro conjunto de datos de ejemplo:

(60 solicitantes de California aceptados/200 solicitantes de California) - (20 solicitantes de California aceptados/100 empleados de Florida) = 60/200 - 20/100 = 0.1.

El valor positivo del DPPTL indica que el conjunto de datos tiene resultados positivos desproporcionadamente más altos para los solicitantes de California en comparación con los de Florida. El valor positivo puede indicar o no un sesgo por sí solo, pero cuando se entrena un modelo con estos datos, es posible que el modelo aprenda a predecir de manera desproporcionada más resultados positivos para los solicitantes de California.

¿Qué sigue?

Obtén información sobre las métricas de sesgo del modelo que admite Vertex AI.
Lee la referencia del componente de canalización de evaluación del modelo.