Introduzione alla valutazione del modello per l'equità

Un flusso di lavoro di machine learning può includere la valutazione dell'equità del modello. Un modello sleale mostra pregiudizi sistemici che possono causare danni, in particolare ai gruppi tradizionalmente sottorappresentati. Un modello non equo potrebbe avere un rendimento peggiore per determinati sottoinsiemi o sezioni del set di dati.

Puoi rilevare i bias durante la raccolta dei dati o il processo di valutazione post-addestramento. Vertex AI fornisce le seguenti metriche di valutazione del modello per aiutarti a valutare la presenza di bias nel modello:

  • Metriche relative ai bias dei dati: prima di addestrare e creare il modello, queste metriche rilevano se i dati non elaborati includono bias. Ad esempio, un set di dati per il rilevamento dei sorrisi potrebbe contenere molte meno persone anziane rispetto a quelle più giovani. Molte di queste metriche si basano sulla quantificazione della distanza tra la distribuzione delle etichette per diversi gruppi di dati:

    • Differenza nelle dimensioni della popolazione.

    • Differenza nelle proporzioni positive nelle etichette vere.

  • Metriche di bias del modello: dopo aver addestrato il modello, queste metriche consentono di rilevare se le previsioni del modello includono bias. Ad esempio, un modello può essere più preciso per un sottoinsieme di dati rispetto al resto dei dati:

    • Differenza di precisione.

    • Differenza nelle proporzioni positive nelle etichette previste.

    • Differenza di richiamo.

    • Differenza di specificità.

    • Differenza nel rapporto tra i tipi di errore.

Per scoprire come includere i componenti della pipeline di bias di valutazione del modello nell'esecuzione della pipeline, consulta Componente di valutazione del modello.

Panoramica del set di dati di esempio

Per tutti gli esempi relativi alle metriche di equità, utilizziamo un ipotetico set di dati di ammissione al college con caratteristiche quali i voti del liceo, lo stato e l'identità di genere di un candidato. Vogliamo misurare se il college ha un atteggiamento biassato nei confronti dei candidati della California o della Florida.

Le etichette target, o tutti i possibili risultati, sono:

  • Accetta il candidato con una borsa di studio (p).

  • Accettare il candidato senza una borsa di studio (q)

  • Rifiutare il richiedente (r).

Possiamo assumere che gli esperti di ammissione abbiano fornito queste etichette come dati empirici reali. Tieni presente che è possibile che anche queste etichette di esperti siano viziate, poiché sono state assegnate da persone.

Per creare un esempio di classificazione binaria, possiamo raggruppare le etichette per creare due possibili risultati:

  • Risultato positivo, indicato come 1. Possiamo raggruppare p e q nel risultato positivo "{p,q} accettato".

  • Risultato negativo, indicato come 0. Può essere una raccolta di tutti gli altri risultati, a parte quello positivo. Nel nostro esempio di domanda di iscrizione all'università, il risultato negativo è "Rifiutato {r}".

Per misurare il pregiudizio tra i richiedenti della California e della Florida, separiamo due sezioni dal resto del set di dati:

  • Slice 1 del set di dati per cui viene misurato il bias. Nell'esempio di domanda di ammissione al college, misuriamo il pregiudizio per i candidati della California.

  • Il secondo segmento del set di dati rispetto al quale viene misurato il bias. Per impostazione predefinita, il segmento 2 può includere "tutto ciò che non è nel segmento 1", ma per l'esempio di domanda di iscrizione all'università, assegniamo il segmento 2 ai richiedenti della Florida.

Nel nostro esempio di set di dati delle domande di ammissione al college, abbiamo 200 richiedenti provenienti dalla California nel primo segmento e 100 dalla Florida nel secondo. Dopo aver addestrato il modello, abbiamo le seguenti matrici di confusione:

Candidati in California Accettazioni (prevista) Rifiuti (previsti)
Accettazioni (dati di fatto) 50 (veri positivi) 10 (falsi negativi)
Rifiuti (dati di fatto) 20 (falsi positivi) 120 (veri negativi)
Candidati in Florida Accettazioni (prevista) Rifiuti (previsti)
Accettazioni (dati di fatto) 20 (veri positivi) 0 (falsi negativi)
Rifiuti (dati di fatto) 30 (falsi positivi) 50 (veri negativi)

Confrontando le metriche tra le due matrici di confusione, possiamo misurare i bias rispondendo a domande come "il modello ha un recupero migliore per un segmento rispetto all'altro?"

Utilizziamo anche la seguente abbreviazione per rappresentare i dati del vero e proprio contesto etichettati, dove i rappresenta il numero di slice (1 o 2):

\( l^0_i = tn_i + fp_i \)
Per il segmento i, il numero di risultati negativi etichettati = veri negativi + falsi positivi.

\( l^1_i = fn_i + tp_i \)
Per il segmento i, il numero di risultati positivi etichettati = falsi negativi + veri positivi.

Tieni presente quanto segue sull'esempio del set di dati delle domande di ammissione al college:

  • Alcune metriche di equità possono essere generalizzate anche per più risultati, ma per semplicità utilizziamo la classificazione binaria.

  • L'esempio si concentra sull'attività di classificazione, ma alcune metriche di equità si generalizzano ad altri problemi come la regressione.

  • Per questo esempio, supponiamo che i dati di addestramento e di test siano gli stessi.

Passaggi successivi