機器學習工作流程可以包含評估模型公平性的程序。不公平的模型會顯示系統性偏差,可能會造成傷害,特別是對傳統上代表性不足的群體。不公平的模型在資料集的特定子集或切片中,可能會表現不佳。
您可以在資料收集期間或訓練後評估程序中偵測偏差。Vertex AI 提供下列模型評估指標,協助您評估模型偏誤:
資料偏差指標:在訓練及建構模型前,這些指標會偵測原始資料是否含有偏差。舉例來說,笑容偵測資料集可能包含的老人比年輕人少得多。其中幾項指標是根據不同資料群組的標籤分布量化距離:
母體大小不同。
真實標籤中正確比例的差異。
模型偏差指標:訓練模型後,這些指標會偵測模型的預測結果是否含有偏差。舉例來說,模型對某個資料子集的準確度,可能高於對其他資料的準確度:
準確度差異。
預測標籤的正比差異。
喚回差異。
特異性差異。
錯誤類型比率的差異。
如要瞭解如何在 pipeline 執行作業中納入模型評估偏差 pipeline 元件,請參閱「模型評估元件」。
範例資料集總覽
在所有與公平性指標相關的範例中,我們都使用假設的大學入學資料集,其中包含申請者的高中成績、州別和性別認同等特徵。我們想評估大學是否偏袒加州或佛羅里達州的申請者。
目標標籤 (或所有可能的結果) 如下:
接受獲得獎學金的申請人 (
p
)。接受申請者,但不提供獎學金 (
q
)拒絕申請者 (
r
)。
我們可以假設這些標籤是由入學專家提供的真值。請注意,即使是專家標籤也可能有偏差,因為這些標籤是由人類指派。
如要建立二元分類示例,我們可以將標籤分組,以建立兩種可能的結果:
正面結果,標示為
1
。我們可以將p
和q
歸類為「已接受{p,q}
」的正面結果。負面結果,標示為
0
。這可以是正面結果以外的所有結果集合。在大學申請範例中,負面結果為「rejected{r}
」。
為了評估加州和佛羅里達州申請者之間的偏差,我們從資料集的其他部分中分離出兩個切片:
要評估偏差的資料集切片 1。在大學申請範例中,我們會評估加州申請者的偏差。
資料集的切片 2,用於評估偏差。根據預設,切片 2 可包含「切片 1 以外的所有內容」,但在大學申請範例中,我們將切片 2 指派為佛羅里達州的申請者。
在本例的大學申請資料集中,第 1 個區塊有 200 位加州申請者,第 2 個區塊則有 100 位佛羅里達州申請者。訓練模型後,我們會得到下列混淆矩陣:
加州申請人 | 接受率 (預測) | 拒絕 (預測) |
---|---|---|
接受 (真值) | 50 (真陽性) | 10 (偽陰性) |
拒絕 (真值) | 20 (偽陽性) | 120 (真陰性) |
佛羅里達州申請人 | 接受率 (預測) | 拒絕 (預測) |
---|---|---|
接受 (真值) | 20 (真陽性) | 0 (偽陰性) |
拒絕 (真值) | 30 (偽陽性) | 50 (真陰性) |
比較兩個混淆矩陣之間的指標,我們就能評估偏差,例如回答「模型對某一區塊的回憶效果是否優於其他區塊?」
我們也會使用以下簡寫法表示標記的真實資料,其中 i
代表切片編號 (1 或 2):
i
,標記為正面結果的數量 = 偽陰性 + 真陽性。
請注意下列大學申請資料集範例的事項:
部分公平性指標也可推廣至多個結果,但我們為了簡化說明,採用二元分類。
本例著重於分類作業,但某些公平性指標可推廣至迴歸等其他問題。
在本例中,我們假設訓練資料和測試資料相同。
後續步驟
瞭解 Vertex AI 支援的資料偏差指標。
瞭解 Vertex AI 支援的模型偏差指標。
請參閱模型評估管道元件參考資料。