警告總覽

本文說明如何在應用程式失敗或效能未達到既定條件時收到通知。

警示的運作方式

Cloud Monitoring 快訊程序包含三個部分:

  • 快訊政策:說明您希望在何種情況下收到快訊,以及希望以何種方式收到事件通知。快訊政策可監控 Monitoring 儲存的時間序列資料,或 Cloud Logging 儲存的記錄檔。當資料符合警告政策條件時,Monitoring 會建立事件並傳送通知。

  • 每個事件都是記錄項目,記錄受控的資料類型和符合條件的時間。這項資訊可協助您排解造成事件的問題。

  • 通知管道會定義監控功能建立事件時,您接收通知的方式。舉例來說,您可以設定快訊政策,以便傳送電子郵件至 my-support-team@example.com,並將 Slack 訊息發布至 #my-support-team 頻道。快訊政策可包含一或多個通知管道。

快訊政策可評估三種類型的資料:

  • 時間序列資料 (也稱為指標資料),由 Monitoring 儲存。這類政策稱為以指標為準的快訊政策。

    如要瞭解如何設定以指標為依據的快訊政策,請試試 Compute Engine 快速入門

  • Cloud Logging 儲存的記錄項目資料。評估個別記錄項目的警告政策稱為記錄檔快訊政策。每當記錄中出現特定訊息時,以記錄為基礎的警告政策就會通知您。詳情請參閱「監控記錄」。

  • Log Analytics 中針對儲存在記錄功能中的記錄項目資料執行 SQL 查詢的結果。監控 SQL 查詢結果的警告政策稱為以 SQL 為準的警告政策。詳情請參閱「透過快訊政策監控 SQL 查詢結果」。

    以 SQL 為基礎的警示政策目前為公開預先發布版。

當應用程式效能未達到可接受的值時,快訊程序可協助您回應問題。舉例來說,您將網頁應用程式部署至 Compute Engine 虛擬機器 (VM) 執行個體。雖然您預期 HTTP 回應延遲會有所波動,但您希望支援團隊在應用程式在一段長時間內有高延遲時做出回應。您可以建立以指標為基礎的快訊政策,監控應用程式的 HTTP 回應延遲時間指標。如果回應延遲時間至少五分鐘超過兩秒,Monitoring 就會建立事件,並傳送電子郵件通知給支援團隊。

如何建立快訊政策

您可以透過多種方式建立快訊政策。舉例來說,您可以使用預先設定的快訊政策,在 Google Cloud 控制台中啟用整合或特定頁面建議的快訊。您也可以使用Google Cloud 控制台、Cloud Monitoring APIGoogle Cloud CLITerraform 設定新的警示政策。

使用整合和建議的快訊政策

Monitoring 提供預先建構的套件,讓您為Google Cloud 服務和第三方整合建立快訊政策。套件包含服務的建議快訊政策、資訊主頁範例和主要指標。這些套件適用於Google Cloud Google Kubernetes Engine、Compute Engine 和 Cloud SQL 等服務,以及 MongoDB、Kafka 和 Elasticsearch 等常見的第三方整合服務。

安裝套件時,您可以啟用套件建議的警示政策。啟用建議的快訊政策時,您可以設定通知管道,並視需要修改其他值。設定完成後,系統就會立即開始監控目標,無須再輸入其他使用者資料。

建議的快訊政策可協助您部署新服務,並針對重要指標發出快訊。舉例來說,Cloud SQL 整合套件會提供建議的警示政策,用於處理失敗的執行個體和執行速度緩慢的交易:

兩個建議的 Cloud SQL 整合套件警示政策。

如要進一步瞭解快訊整合功能,請參閱「監控第三方應用程式」。

建立新的快訊政策

您可以根據快訊需求建立快訊政策,監控不同類型的資料。以下各節會列出可透過快訊政策監控的不同類型資料。

監控時間序列資料

條件類型 說明 範例
指標門檻值條件

當指標值超過或低於特定重測時間範圍的門檻值時,就會符合指標門檻值條件。

詳情請參閱「建立以指標門檻為基礎的警告政策」和「使用 API 建立警告政策」。

您希望快訊政策在 10 分鐘內連續進行 5 次運作時間檢查,如果回應延遲時間達到 500 毫秒或更高,就會傳送通知。
缺少指標條件

當監控的時間序列在特定重測期間內沒有資料時,就會符合指標不存在條件。重測時間上限為 23.5 小時。

詳情請參閱「建立指標缺少快訊政策」和「使用 API 建立快訊政策」。

您希望建立警示政策,在資源在五分鐘內未回應任何 HTTP 要求時,向支援團隊開啟事件。
預測指標值條件

當快訊政策預測在即將到來的預測時間範圍內會違反臨界值時,就會符合預測指標值條件。預測期間可為 1 小時至 7 天。

如需更多資訊,請參閱「建立預測指標值快訊政策」和「使用 API 建立快訊政策」相關說明。

您希望建立快訊政策,在資源在接下來 24 小時內可能達到 80% 磁碟空間用量時,向支援團隊開啟事件。

監控記錄項目資料

如要監控個別記錄項目,請使用記錄檔型快訊政策。當警告政策偵測到記錄項目中的字詞符合警告政策條件時,系統就會符合記錄檔快訊政策的條件。舉例來說,您可以建立警告政策,在記錄項目的 message 包含 product_ids=['tier_1_support', 'tier_2_support'] 時,向支援團隊開啟事件。

詳情請參閱「記錄」說明文件中的「設定以記錄為基礎的快訊政策」。

監控 SQL 查詢結果

如要監控 SQL 查詢結果,請使用 SQL 警示政策。以 SQL 為基礎的快訊政策條件會定期分析記錄項目資料,並在查詢結果資料表符合特定條件時建立事件。如果您需要用於監控多個記錄項目的資料匯總或複雜模式的警示政策,這類政策就很實用。舉例來說,如果您想在過去 60 分鐘內,有超過 50 個記錄項目的嚴重性為 WARNING 時收到通知,

詳情請參閱「Logging」說明文件中的使用警示政策監控 SQL 查詢結果一文。

快訊政策元件

每個警示政策都包含下列元件:

  • 描述資源或資源群組處於需要您回應的狀態時的條件。條件包括資料來源、靜態或動態閾值,以及篩選器和 groupby 等資料匯總方法。條件可監控單一指標、多個指標或指標比率。您也可以使用 Prometheus 查詢語言 (PromQL) 加入複雜的運算式,例如動態閾值和條件邏輯。

    如果您使用整合功能啟用建議的快訊政策,系統會預先填入快訊政策條件。

  • 通知管道清單,說明在需要採取行動時,應通知哪些使用者。詳情請參閱「建立及管理通知管道」。

  • 在通知和事件頁面中顯示的文件。您可以設定通知的主旨行,並在通知內文中加入實用資訊。舉例來說,您可以設定通知,顯示內部手冊或 Google Cloud 頁面 (例如自訂資訊主頁) 的連結。如要進一步瞭解說明文件 (包括範例),請參閱使用者定義的說明文件可用於標註事件

查詢語言

在警示政策中使用查詢語言和篩選器,以便更有效地控管指標評估。監控功能支援下列查詢類型:

  • Prometheus 查詢語言 (PromQL) 是一種函式查詢語言,可用於即時評估時間序列資料。您可以設定快訊政策,在條件中加入 PromQL 查詢。PromQL 查詢可以使用任何有效的運算式,例如指標組合、比率和縮放門檻。在 Google Cloud中設定以 PromQL 為基礎的快訊政策,即可減少對外部快訊基礎架構的依附性。詳情請參閱「Cloud Monitoring 中的 PromQL」和「PromQL 警示總覽」。

  • 您可以使用監控篩選器設定快訊政策,以便使用篩選器為基礎的指標比率。您無法在 Google Cloud 控制台中查看或修改以篩選器為依據的警示政策。如需使用 Monitoring 篩選器的政策範例,請參閱「指標比率」。

  • Monitoring Query Language (MQL) 是文字型運算介面,可用來擷取、篩選及操控時間序列資料。您可以建立警告政策,其中包含含有 Monitoring Query Language 警告作業的條件。詳情請參閱「Monitoring Query Language 總覽」和「使用 MQL 建立快訊政策」。

管理快訊政策和事件

啟用警告政策後,監控功能會持續監控該政策的條件。您無法設定警示政策,只監控特定時間範圍內的條件。如果您想在特定時間內停用快訊政策,請建立暫停鬧鐘

如果事件處於開啟狀態,而 Monitoring 判定以指標為基礎的政策條件不再符合,Monitoring 會自動關閉事件,並傳送關閉事件的通知。

定價

一般來說,Cloud Monitoring 系統指標是免費的,但外部系統、代理程式或應用程式的指標則不包含在內。計費指標會依據擷取的位元組數或樣本數計費。

如要進一步瞭解 Cloud Monitoring 的定價,請參閱下列文件:

如要瞭解如何監控已擷取的追蹤跨度或記錄數量,或是在記錄項目中加入特定內容時收到通知,請參閱下列文件:

後續步驟