本頁面由 Cloud Translation API 翻譯而成。

Vertex AI 的模型偏差指標

本頁說明可用於偵測模型偏誤的模型評估指標。模型訓練完成後，模型預測輸出內容可能會出現偏誤。本頁的範例和符號使用假設的大學申請資料集，詳情請參閱「Introduction to model evaluation for fairness」(公平性模型評估簡介)。

如要瞭解從前置訓練資料產生的指標，請參閱資料偏誤指標。

總覽

在我們的範例大學申請資料集中，資料配量 1 有 200 位加州申請者，資料配量 2 則有 100 位佛羅里達州申請者。訓練模型後，我們會得到下列混淆矩陣：

加州應徵者	接受率 (預測)	拒絕 (預測)
接受 (真值)	50 (真陽性)	10 (偽陰性)
拒絕 (實際資料)	20 (偽陽性)	120 (真陰性)

佛羅里達州申請人	接受率 (預測)	拒絕 (預測)
接受 (真值)	20 (真陽性)	0 (偽陰性)
拒絕 (實際資料)	30 (偽陽性)	50 (真陰性)

一般來說，您可以按照下列方式解讀大多數指標的符號：

正值：表示可能偏好第 1 個區隔，而非第 2 個區隔。
值為零：表示片段 1 和片段 2 之間沒有偏差。
負值：表示可能偏好第 2 個類別，而非第 1 個類別。

如果指標不適用這項做法，我們會註明。

準確度差異

準確度差異會測量切片 1 和切片 2 之間的準確度差異：

$$ \frac{tp_1 + tn_1}{n_1} - \frac{tp_2 + tn_2}{n_2} $$

((切片 1 的真陽性 + 切片 1 的真陰性)/切片 1 的執行個體總數) - ((切片 2 的真陽性 + 切片 2 的真陰性)/切片 2 的執行個體總數)

在範例資料集中：

((50 個正確預測的加州接受申請 + 120 個正確預測的加州拒絕申請)/ 200 個加州申請者) - ((20 個正確預測的佛州接受申請 + 50 個正確預測的佛州拒絕申請)/ 100 個佛州申請者) = 170/200 - 70/100 = 0.15

準確度差異的正值表示，相較於佛羅里達州申請人，模型對加州申請人的預測更準確。這可能表示有偏袒加州申請人的潛在偏誤。

預測標籤中正向比例的差異 (DPPPL)

預測標籤中正向比例的差異 (DPPPL) 會評估模型是否傾向對某個切片做出不成比例的正向預測。DPPPL 會計算預測標籤中正向比例的差異，其中預測標籤中正向比例是指某個切片的 (預測正向結果/總例項數)：

$$ \frac{tp_1 + fp_1}{n_1} - \frac{tp_2 + fp_2}{n_2} $$

((第 1 個切片的真陽性 + 第 1 個切片的偽陽性)/第 1 個切片的執行個體總數) - ((第 2 個切片的真陽性 + 第 2 個切片的偽陽性)/第 2 個切片的執行個體總數)

針對範例資料集：

((50 個正確預測的加州錄取人數 + 20 個錯誤預測的加州錄取人數)/ 200 個加州申請人) - ((20 個正確預測的佛州錄取人數 + 30 個錯誤預測的佛州錄取人數)/ 100 個佛州申請人) = 70/200 - 50/100 = -0.15

DPPPL 的負值表示模型接受佛羅里達州申請人的比例，高於加州申請人。

喚回度差異

「召回率差異」會測量切片 1 和切片 2 之間的召回率差異，只會查看標示為正向的結果。召回差異也可能稱為「平等機會」。

$$ \frac{tp_1}{l^1_1} - \frac{tp_2}{l^1_2} $$

(第 1 個切片的真陽性/(第 1 個切片的真陽性 + 第 1 個切片的偽陰性)) - (第 2 個切片的真陽性/(第 2 個切片的真陽性 + 第 2 個切片的偽陰性))

在範例資料集中：

(50 個正確預測的加州錄取人數/(50 個正確預測的加州錄取人數 + 10 個錯誤預測的加州拒絕人數)) - (20 個正確預測的佛州錄取人數/(20 個正確預測的佛州錄取人數 + 0 個錯誤預測的佛州拒絕人數)) = 50/60 - 20/20 = -0.17

負值表示模型在回想佛羅里達州申請人時，比回想加州申請人更準確。換句話說，模型在接受佛羅里達州申請人時，往往比接受加州申請人時更準確。

優先權差異

特異度差異會測量切片 1 和切片 2 之間的特異度差異，也就是真陰性率。我們可以將其視為召回率差異，但適用於標示為負面的結果：

$$ \frac{tn_1}{l^0_1} - \frac{tn_2}{l^0_2} $$

(子群組 1 的真陰性/(子群組 1 的真陰性 + 子群組 1 的偽陽性)) - (子群組 2 的真陰性/(子群組 2 的真陰性 + 子群組 2 的偽陽性))

在範例資料集中：

(120 個正確預測的加州拒絕/(120 個正確預測的加州拒絕 + 20 個錯誤預測的加州接受)) - (50 個正確預測的佛州拒絕/(50 個正確預測的佛州拒絕 + 30 個錯誤預測的佛州接受)) = 120/140 - 50/80 = 0.23

正值表示在拒絕申請時，模型對加州申請人的召回率高於佛羅里達申請人。換句話說，模型在拒絕加州申請人時，比拒絕佛羅里達州申請人時更可能做出正確決定。

錯誤類型比例的差異

「錯誤類型比率差異」會測量錯誤 (偽陰性和偽陽性) 在切片 1 和切片 2 之間的分布差異。錯誤類型比率的計算方式為 (偽陰性 (第 I 型錯誤)/偽陽性 (第 II 型錯誤))。錯誤類型比率差異也可能稱為「處理平等」。

$$ \frac{fn_1}{fp_1} - \frac{fn_2}{fp_2} $$

(切片 1 的偽陰性/切片 1 的偽陽性) - (切片 2 的偽陰性/切片 2 的偽陽性)

在範例資料集中：

(10 個錯誤預測的加州拒絕/20 個錯誤預測的加州接受) - (0 個錯誤預測的佛州拒絕/30 個錯誤預測的佛州接受) = (10/20 - 0/30) = 0.5

雖然模型對加州和佛羅里達的申請人都有 30 個錯誤，但「錯誤類型比率差異」的正值表示，相較於佛羅里達申請人，模型傾向於過度預測加州申請人的正面結果 (偽陽率較高)，因此低估負面結果 (偽陰率較低)。

錯誤類型比率差異的符號通常可解讀為：

正值：表示模型對切片 1 產生偽陽性錯誤的比例，遠高於偽陰性錯誤。
零值：表示模型對兩個切片產生相同數量的偽陽性錯誤。
負值：表示模型對切片 2 產生偽陽性錯誤的比例，遠高於偽陰性錯誤。

這個指標的符號不一定表示模型有偏誤，因為偽陰性或偽陽性的危害程度取決於模型的應用。

後續步驟

請參閱模型評估管道元件參考資料。
如要進一步瞭解公平性指標，請參閱「A Survey on Bias and Fairness in Machine Learning」(機器學習偏誤和公平性調查)。

Vertex AI 的模型偏差指標 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

總覽

準確度差異

預測標籤中正向比例的差異 (DPPPL)

喚回度差異

優先權差異

錯誤類型比例的差異

後續步驟

Vertex AI 的模型偏差指標