為事件加上標籤

本文說明如何為事件加上使用者定義的標籤,藉此整理事件並排定優先順序。這些標籤是在快訊政策中設定,並列於快訊政策和事件中。視設定而定,標籤也會顯示在特定通知中。

關於標籤

標籤是鍵/值組合,可用於將資訊附加至時間序列、快訊政策、事件或通知。舉例來說,時間序列的標籤可能會指出收集資料的特定虛擬機器 (VM) 執行個體。標籤可以是使用者定義或預先定義。

使用者定義的標籤

使用者定義的標籤包含您指定的資訊。 這些標籤可以有靜態或動態值:

標籤鍵開頭必須為小寫字母。標籤鍵和標籤值只能包含小寫字母、數字、底線和破折號。

預先定義的標籤

資源描述元中包含預先定義的標籤,寫入時間序列資料時必須填入這些標籤。這些標籤會顯示所收集指標的相關資訊,或是指標寫入的資源。舉例來說,時間序列的標籤可能會識別虛擬機器 (VM)、區域、 Google Cloud 專案和裝置類型。當 Monitoring 根據該時間序列建立事件時,事件會沿用這些標籤。

App Hub 標籤

App Hub 會將標籤附加至應用程式及其服務和工作負載產生的記錄、指標和追蹤資料。這些標籤可讓基礎架構建立 Google Cloud 應用程式、服務和工作負載資訊主頁,顯示指標和記錄資料。詳情請參閱下列文件:

如何查看標籤

您可以在事件詳細資料頁面快訊政策詳細資料頁面,以及部分通知中,查看快訊政策或事件的標籤。

  • 快訊政策:使用者定義的靜態標籤會列在「使用者標籤」部分。動態使用者定義標籤和預先定義標籤不會顯示。
  • 事件:靜態使用者定義標籤會列在「政策標籤」部分,動態使用者定義標籤則會列在「指標標籤」部分。預先定義的標籤會列在「受監控資源標籤」和「指標標籤」部分。
  • 通知:預先定義的標籤和使用者定義的標籤會列在下列通知類型中:

    • 電子郵件
    • Google Chat
    • PagerDuty
    • Pub/Sub
    • Webhook

範例:新增含有動態值的使用者定義標籤

您可以使用 PromQL 設定標籤,根據時間序列資料動態變更標籤值。舉例來說,您希望事件具有 criticality 標籤,其值會根據監控的 CPU 使用率指標值而變更:

  label_replace(
    avg_over_time({"compute.googleapis.com/instance/cpu/utilization", monitored_resource="gce_instance"}[5m]) >= 0.9,
    "criticality", "CRITICAL", "", ""
  )
or ignoring (criticality)
  label_replace(
    avg_over_time({"compute.googleapis.com/instance/cpu/utilization", monitored_resource="gce_instance"}[5m]) >= 0.8,
    "criticality", "WARNING", "", ""
  )
or ignoring (criticality)
  label_replace(
    avg_over_time({"compute.googleapis.com/instance/cpu/utilization", monitored_resource="gce_instance"}[5m]) >= 0.7,
    "criticality", "INFO", "", ""
  )
or ignoring (criticality)
  label_replace(
    avg_over_time({"compute.googleapis.com/instance/cpu/utilization", monitored_resource="gce_instance"}[5m]),
    "criticality", "GOOD", "", ""
  )

下圖說明使用 PromQL 查詢的快訊政策如何處理監控的時間序列資料:

插圖:快訊政策如何處理監控的時間序列。

政策處理常式會處理 CPU 使用率資料,並輸出時間序列,指出何時符合條件。在先前的範例中,CPU 使用率至少達到 70% 時,即符合條件。對於每個輸入時間序列,政策處理常式可以產生下列四個時間序列之一:

輸出時間序列名稱 符合條件 說明
「GOOD」 這個時間序列與輸入時間序列的標籤相同。沒有嚴重程度標籤。
「CRITICAL」 CPU 使用率至少為 90%。輸出時間序列的標籤與「良好」時間序列相同,但多了一個值為「重大」的嚴重程度標籤。
「WARNING」 CPU 使用率至少為 80%,但低於 90%。輸出時間序列的標籤與「良好」時間序列相同,但嚴重程度標籤的值為「警告」。
「INFO」 CPU 使用率至少為 70%,但低於 80%。輸出時間序列的標籤與「良好」時間序列相同,但多了一個值為「INFO」的嚴重程度標籤。

政策處理常式產生的時間序列資料會輸入事件管理員,後者會決定事件的建立和關閉時間。事件管理員會使用 durationevaluationMissingDataautoClose 欄位的值,判斷何時應關閉事件。

最佳做法

如要驗證建立標籤時,一次最多只能開啟一個事件 (標籤值是動態設定),請執行下列操作:

  • MetricThreshold 物件中,覆寫下列欄位的預設值:

    • duration 欄位:設為非零值。
    • evaluationMissingData 欄位:設定為在資料停止傳送時關閉事件。使用 Cloud Monitoring API 時,請將這個欄位設為 EVALUATION_MISSING_DATA_INACTIVE。使用 Google Cloud 控制台時,請將欄位設為「Missing data points treated as values that don't violate the policy condition」(將缺少資料點視為不違反政策條件的值)。
  • AlertStrategy 物件中,將 autoClose 欄位設為最小值 30 分鐘。使用 Cloud Monitoring API 時,請將這個欄位設為 30m

詳情請參閱「部分指標資料」。

事件流程

假設建立快訊政策時,CPU 使用率測量值低於 70%。以下順序說明事件的開啟和關閉方式:

  1. 由於 CPU 使用率測量結果低於 70%,政策處理常式會產生「良好」時間序列,且不會開啟任何事件。

  2. 接著,假設 CPU 使用率升至 93%。政策處理常式會停止產生「良好」時間序列資料,並開始產生「嚴重」時間序列的資料。

    事件管理員會看到符合條件的新「重大」時間序列,然後開啟事件。通知包含嚴重程度標籤,值為 CRITICAL

  3. 假設 CPU 使用率降至 75%。政策處理常式會停止產生「重大」時間序列,並開始產生「資訊」時間序列。

    事件管理員會看到符合條件的新「INFO」時間序列,然後開啟事件。通知會包含嚴重程度標籤,值為 INFO

    事件管理員發現「重大」時間序列沒有任何資料傳入,且該時間序列的事件處於開啟狀態。由於政策設定為在資料停止傳送時關閉事件,事件管理員會關閉與「重大」時間序列相關聯的事件。因此,只有嚴重程度標籤值為 INFO 的事件會保持開啟狀態。

  4. 最後,假設 CPU 使用率降至 45%。這個值低於所有門檻,因此政策處理常式會停止產生「INFO」時間序列,並開始產生「GOOD」時間序列。

    事件管理員發現「INFO」時間序列沒有任何資料傳送,且該時間序列的事件已開啟。由於政策使用建議設定,因此事件已結案。

如果沒有為 evaluationMissingData 欄位使用建議值,資料停止傳送時,系統不會立即關閉未結案件。因此,您可能會看到多個針對相同輸入時間序列開啟的事件。詳情請參閱「部分指標資料」。

後續步驟