Vertex AI 的資料偏差指標

本頁說明可用於偵測資料偏差的評估指標,這類偏差可能會出現在原始資料和真值值中,甚至在訓練模型之前就會出現。針對本頁的示例和符號,我們使用假設的大學申請資料集,詳情請參閱「模型評估公平性簡介」。

如要瞭解從訓練後資料產生的指標,請參閱「模型偏差指標」。

總覽

在本例的大學申請資料集中,第 1 個資料片段中有 200 位加州申請者,第 2 個資料片段中有 100 位佛羅里達州申請者,標示如下:

配量 拒絕 接受
加州 140 60
佛羅里達州 80 20

一般來說,您可以將大多數指標的符號解讀如下:

  • 正值:表示系統可能偏向切片 1 而非切片 2。

  • 值為零:表示片段 1 和片段 2 之間沒有偏差。

  • 負值:表示系統可能偏向切片 2 而非切片 1。

我們會在指標中註明不適用的情況。

母體大小的差異

「人數差異」會根據兩個區塊的總人數,評估區塊 1 是否比區塊 2 有更多例子:

$$ \frac{n_1-n_2}{n_1+n_2} $$

(切片 1 的總人口 - 切片 2 的總人口) / (切片 1 和 2 中的人口總和)

在範例資料集中

(200 位加州申請者 - 100 位佛羅里達州申請者)/ 總申請人數 300 = 100/300 = 0.33。

人口差異的正值表示加州申請者比佛羅里達州申請者多,正值不一定代表偏見,但如果模型以這類資料進行訓練,可能會學到針對加州申請者提供更佳成效。

實際標籤中正面比例的差異 (DPPTL)

「真實標籤中正面比例的差異」會評估資料集是否在某個切片中,有比其他切片更高的正面真值標籤比例。這項指標會計算真實標籤中正面比例在切片 1 和切片 2 之間的差異,其中切片的真實標籤中正面比例為 (標示為正面的結果數量 / 總母體數量)。這個指標也稱為「標籤不平衡」

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(標示為正面結果的切片 1/切片 1 的總人數) - (標示為正面結果的切片 2/切片 2 的總人數)

在範例資料集中

(60 位錄取的加州申請者/200 位加州申請者) - (20 位錄取的佛羅里達州申請者/100 位佛羅里達州申請者) = 60/200 - 20/100 = 0.1。

DPPTL 的正值表示,相較於佛羅里達州的申請者,加州申請者的資料集有更高的正面結果。正值不一定代表有偏誤,但如果模型是根據這類資料進行訓練,可能會學到如何預測加州申請者的正面結果過多。

後續步驟