您可以建立 SLO 的快訊政策,瞭解自己是否有違反 SLO 的風險。您可以選取要監控的服務水準目標,然後設定快訊政策來監控該服務水準目標。通常會選取構成違規的門檻值,以及允許違規的期間,來表示條件。如果超過允許的時間,系統就會觸發警示政策。
本頁面說明如何針對錯誤預算的消耗率發出快訊。這篇文章不會詳細說明快訊政策,而是假設您已瞭解條件和通知管道的基礎概念。
如要瞭解快訊政策的一般資訊和建立方式,請參閱「使用快訊政策」。
如要瞭解建立以 SLO 為依據的快訊政策的具體步驟,請參閱以下內容:
錯誤預算的消耗率
法規遵循期間的錯誤預算為 (1 − 服務等級目標) × (法規遵循期間內符合資格的事件)。如果 SLO 目標為 95%,則 SLI 評估的事件中,有 5% 的事件失敗,但仍達到 SLO 目標,這也是可接受的範圍。
消耗率會顯示您在評估期間消耗錯誤預算的速度。耗用率取決於符合資格的事件數量,以及在遵循期內收到的錯誤事件數量。舉例來說,如果沒有發生錯誤事件,則不會耗用錯誤預算,耗用率為零。如需示例,瞭解如何計算服務的最大停機時間,請參閱「耗用率快訊」。
耗損率指標會經過正規化,因此如果耗損率大於 1,表示如果在任何未來的評估期間,測量到的錯誤率持續存在,則該服務會在該期間超出服務水準目標。詳情請參閱「錯誤預算」。
時序選取器 select_slo_burn_rate
會擷取耗用率指標。如果錯誤預算消耗速度超過您在警告回溯期內定義的門檻,系統就會發出消耗率快訊政策通知。還有其他時間序列選取器,詳情請參閱「擷取 SLO 資料」。您可以建立使用其他時間序列選取器的快訊政策,但必須使用 Cloud Monitoring API 建立。
針對服務等級目標建立快訊政策的總覽
建立服務等級目標的警告政策,與建立指標的警告政策類似。本節將介紹建立快訊政策的一般步驟。
如要針對服務等級目標建立快訊政策,請按照下列步驟操作:
找出要以哪個服務等級目標為基礎建立快訊政策。
為使用所選服務等級目標的快訊政策建立條件。在條件中,您可以指定要用於擷取 SLO 資料的時間序列選取器。您也必須指定時間長度、閾值和比較項目,以便判斷服務等級目標何時違規。
舉例來說,如果您使用時序選取器查看消耗率,擷取的資料會反映所選服務等級目標的錯誤預算消耗率。
您也可以在條件中指定觸發快訊前,違反 SLO 的門檻和時間長度。舉例來說,您希望消耗率在一段時間內超過所需的速率,系統才會觸發警示。「超過某個數量」的值是條件的門檻,而「某個時間長度」的值是條件的時間長度。
找出或建立要用於快訊政策的通知管道。
提供說明文件,向使用者說明觸發警示政策的原因。
如要瞭解快訊政策的一般資訊和建立方式,請參閱「使用快訊政策」。
快訊政策和回溯期
擷取快訊政策的服務等級目標資料時,您必須指定服務等級目標的 ID 和回溯期。回溯期會決定要擷取多久以前的資料。重要的是,回溯期也會用於計算服務水準目標效能和錯誤預算的合規期間。
目前無法根據服務水準目標的錯誤預算消耗率,使用超過 24 小時的評估時間範圍傳送快訊。在許多情況下,只要將長期 (例如 28 或 30 天) 法規遵循期,估算為 24 小時以下,就足以偵測服務中斷情形,並針對中斷情形採取短期營運回應。
回溯期越短,偵測問題的速度就越快。但請注意,如果一天當中的流量和錯誤率出現大幅變化,系統只要偵測到流量偏低的情況,就會發出警告。建議您使用比 1 大得多的耗損率門檻,以便在這些時間內降低警示靈敏度。
錯誤預算快訊類型
設定快訊政策以監控錯誤預算時,建議您設定兩個相關的快訊政策:
快速消耗警示:系統會發出這類警示,提醒您消耗量突然大幅變動,如果未修正,錯誤預算很快就會耗盡。「以這個速度,我們會在兩天內就用完整個月的錯誤預算!」
針對快速消耗警報,請使用較短的回溯期,以便在出現並持續存在可能導致災難的情況時,快速收到通知,即使只是短暫的情況也一樣。如果問題嚴重,您不想等太久才發現。
您在此處設定的消耗率門檻遠高於回溯期內的理想基準值。
緩慢消耗快訊:如果回溯時間長度較長,系統將在達到指定消耗率時發出警告。未調整這項設定的話,錯誤預算就會在評估時間範圍結束前耗盡。與快速消耗的情況相比,這種情況的緊急程度較低。「我們在本月這個時間點的表現略高於預期,但還不至於太嚴重。」
針對緩慢消耗警示,請使用較長的回溯期,以便平滑短期消耗量的變化。
您在緩慢消退警示中設定的警示門檻高於回溯期間的理想成效,但差距不大。以較短回溯期為基礎且設有高門檻的政策,即使長期的消費量已達到平衡,仍可能產生過多警示。但如果消耗量在較長的時間內都維持在略高於平均值的程度,最終就會耗盡所有錯誤預算。
後續步驟
- 如要使用 Google Cloud 主控台建立以服務等級目標為基礎的快訊政策,請參閱「建立快訊政策 (Google Cloud 主控台)」一文。
- 如要使用 Monitoring API 建立以 SLO 為依據的快訊政策,請參閱「建立快訊政策 (API)」一文。