關於異常偵測

本頁適用於 ApigeeApigee Hybrid

查看 Apigee Edge 說明文件。

什麼是異常狀況?

異常狀況是指異常或非預期的 API 資料模式。舉例來說,請參閱下方 API 錯誤率圖表:

錯誤率異常的圖表。

如您所見,錯誤率在早上 7 點左右突然飆升。與之前的資料相比,這次的異常升幅足以歸類為異常值。

不過,並非所有 API 資料的變化都代表異常:大部分只是隨機波動。舉例來說,您可能會發現錯誤率出現一些相對微小的變化,導致異常情況發生,但這些變化不夠顯著,無法稱為真正的異常情況。

異常資料變化與隨機資料變化。

AAPI Ops 會持續監控 API 資料並執行統計分析,以便區分真正的異常情形和資料中的隨機波動。

如果沒有異常偵測功能,您必須自行選擇門檻,用於偵測每個異常。(門檻值是指某個數量 (例如錯誤率) 必須達到某個值才能觸發異常)。您也必須根據最新資料更新閾值值。相反地,AAPI-Ops 會根據最近的資料模式,為您選擇最適合的異常值門檻。

當 AAPI 偵測到異常事件 (如上方所示) 時,會在異常事件資訊主頁中顯示異常事件詳細資料。此時,您可以調查 API 監控資訊主頁中的異常狀況,並視需要採取適當行動。你也可以建立快訊,在日後發生類似事件時收到通知。

系統偵測到的異常狀況包含下列資訊:

  • 導致異常的評估指標,例如 Proxy 延遲或 HTTP 錯誤代碼。
  • 異常狀況的嚴重程度。嚴重程度可分為輕微、中度或嚴重,取決於模型中的可信度等級。信心程度低表示嚴重程度輕微,信心程度高則表示嚴重程度高。

異常類型

Apigee 會自動偵測下列異常類型:

  • 機構、環境和區域層級的 HTTP 503 錯誤數量增加
  • 機構、環境和區域層級的 HTTP 504 錯誤數量增加
  • 機構、環境和區域層級的所有 HTTP 4xx 或 5xx 錯誤數量增加
  • 組織、環境和區域層級的第 90 百分位數 (p90) 的總回應延遲時間增加

異常偵測的運作方式

異常偵測包含下列階段:

訓練模型

異常偵測功能會根據歷來時序資料,訓練 API Proxy 行為的模型。您無須採取任何行動即可訓練模型。Apigee 會自動使用過去六小時的 API 資料,為您建立及訓練模型。因此,Apigee 需要至少六小時的 API Proxy 資料來訓練模型,才能記錄異常現象。

訓練的目標是提高模型的準確度,之後再以歷來資料進行測試。測試模型準確度的最簡單方法,就是計算錯誤率:將偽陽性和偽陰性總和除以預測事件總數。

記錄異常事件

在執行階段,Apigee 異常偵測功能會將 API Proxy 的目前行為,與模型預測的行為進行比較。異常偵測功能可根據特定信賴水準,判斷何時會出現超出預測值的作業指標。例如,當 5xx 錯誤率超過模型預測的率時。

Apigee 偵測到異常時,會自動將事件記錄在異常事件資訊主頁中。資訊主頁顯示的事件清單包含所有偵測到的異常狀況,以及觸發的快訊。