簡介
本頁面提供概念的簡短總覽,讓您瞭解 Vertex AI 支援的特徵歸因方法。如需深入的技術討論,請參閱 AI 說明白皮書。
全域特徵重要性 (模型特徵歸因) 會顯示各項特徵對模型的影響程度。每項特徵的值會以百分比提供:百分比越高,代表該特徵對模型訓練的影響越大。如要查看模型的全球特徵重要性,請檢查評估指標。
時間序列模型的本地特徵歸因,會指出資料中各項特徵對預測結果的影響程度。您可以依據這項資訊確認模型的行為是否符合預期、找出模型偏誤,以及探索改善模型和訓練資料的方式。提出推論要求時,您會根據模型取得適當的預測值。要求解釋時,系統會提供推論結果和特徵歸因資訊。
請考慮下列範例:訓練深層類神經網路,根據天氣資料和先前的共乘資料,預測單車行程的時間長度。如果您只向這個模型要求推論,系統會以分鐘數量來提供預測的單車行程時間。如果您要求說明,系統會提供預測的單車行程時間,以及說明要求中每項特徵的歸因分數。歸因分數會顯示功能相對於您指定的基準值,對推論值變化所造成的影響。選擇對模型有意義的基準,在本例中為自行車行程時間中位數。
您可以繪製特徵歸因分數,查看哪些特徵對最終推論的貢獻最大:
執行線上推論工作或批次推論工作時,您可以產生及查詢本機特徵歸因。
優點
如果您檢查特定例項,並匯總訓練資料集中的特徵歸因,就能更深入瞭解模型的運作方式。請考慮下列優點:
偵錯模型:特徵歸因功能可協助偵測資料中標準模型評估技術通常會遺漏的問題。
最佳化模型:您可以找出並移除較不重要的功能,進而打造更有效率的模型。
概念限制
請考量下列功能歸因的限制:
特徵歸因 (包括 AutoML 的本機特徵重要性) 是特定推論的專屬資訊。檢查個別推論的特徵歸因可能會提供良好的洞察資料,但這些洞察資料可能無法推廣至個別例項的整個類別或整個模型。
如要進一步瞭解 AutoML 模型的通用洞察資料,請參閱模型特徵重要性。如要針對其他模型取得更具一般性的洞察資料,請匯總資料集子集或整個資料集的歸因。
每個歸因只會顯示該特徵對該特定示例推論的影響程度。單一歸因可能無法反映模型的整體行為。如要瞭解模型在整個資料集上的大致行為,請匯總整個資料集的歸因。
雖然功能歸因可協助模型偵錯,但不一定能清楚指出問題是出自模型,還是出自模型訓練的資料。請運用您的判斷力,診斷常見的資料問題,縮小潛在原因範圍。
歸屬資訊完全取決於模型和用於訓練模型的資料。只能揭露模型在資料中發現的模式,無法偵測資料中的任何基礎關係。某項功能是否有強烈的歸因,並不代表該功能與目標之間有或沒有關係。歸因資訊只會顯示模型在推論中是否使用該特徵。
單憑歸因無法判斷模型是否公平、不偏頗或品質良好。除了歸因外,請仔細評估訓練資料和評估指標。
如要進一步瞭解限制,請參閱 AI 說明白皮書。
改善功能屬性
以下因素對功能歸因影響最大:
- 歸因方法會近似夏普利值。您可以增加取樣的 Shapley 方法路徑數量,提高近似值的精確度。因此,歸因結果可能會大幅改變。
- 歸因結果只會表示功能相對於基準值,對推論值變化程度的影響。請務必選擇與模型相關的問題,並選擇有意義的基準。轉換基準變更後,歸因值及其解讀方式可能會大幅變動。
演算法
Vertex AI 會使用夏普利值提供特徵歸因,夏普利值是合作賽局理論演算法,可為遊戲中特定結果的每位玩家指派功勞。套用至機器學習模型,這表示每個模型特徵都會視為遊戲中的「玩家」,並依特定推論結果的比例分配功勞。針對結構化資料模型,Vertex AI 會使用稱為「取樣 Shapley」的確切 Shapley 值近似值。
如要深入瞭解取樣夏普利值方法的運作方式,請參閱「Bounding the Estimation Error of Sampling-based Shapley Value Approximation」這篇論文。
後續步驟
以下資源提供其他實用的教育素材: