本頁面由 Cloud Translation API 翻譯而成。

Vertex AI 的資料偏差指標

本頁面說明可用於偵測資料偏誤的評估指標。即使在訓練模型之前，原始資料和實際資料值中也可能出現資料偏誤。本頁的範例和符號使用假設的大學申請資料集，詳情請參閱「公平性模型評估簡介」。

如要瞭解根據訓練後資料產生的指標，請參閱模型偏誤指標。

總覽

在我們的範例大學申請資料集中，資料配量 1 有 200 位加州申請者，資料配量 2 有 100 位佛羅里達州申請者，標籤如下：

配量	拒絕	接受
加州	140	60
佛羅里達州	80	20

一般來說，您可以按照下列方式解讀大多數指標的符號：

如果指標不適用這項做法，我們會註明。

「母體大小差異」會測量切片 1 的樣本數是否多於切片 2，並以兩個切片的母體總數進行正規化：

$$ \frac{n_1-n_2}{n_1+n_2} $$

(第 1 個切片總人口 - 第 2 個切片總人口) / (第 1 個和第 2 個切片的人口總和)

在範例資料集中：

(200 位加州申請人 - 100 位佛羅里達州申請人)/ 300 位申請人總數 = 100/300 = 0.33。

「人口規模差異」的正值表示加州申請人的人數比例高於佛羅里達州申請人。正值本身可能或可能不會指出偏誤，但如果模型是根據這項資料訓練，模型可能會學到如何為加州申請人提供更優質的服務。

「實際標籤中正向比例的差異」會評估資料集是否在某個切片中，正向實際標籤的比例明顯高於其他切片。這項指標會計算切片 1 和切片 2 之間，真實標籤中正向比例的差異。切片真實標籤中的正向比例為 (標示為正向的結果 / 總母體大小)。這項指標也稱為「標籤不平衡」：

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(切片 1 的標示正向結果/切片 1 的總母體大小) - (切片 2 的標示正向結果/切片 2 的總母體大小)

在範例資料集中：

(60 位加州申請人獲准/200 位加州申請人) - (20 位佛羅里達州申請人獲准/100 位佛羅里達州申請人) = 60/200 - 20/100 = 0.1。

DPPTL 的正值表示，相較於佛羅里達州申請人，加州申請人的資料集有不成比例的高正向結果。正值本身可能或可能不會指出偏誤，但如果模型是根據這項資料訓練，模型可能會學到加州申請人獲得正面結果的比例過高。