使用 Cloud Monitoring 監控執行個體

本文說明如何使用 Cloud Monitoring 主控台監控 Spanner 執行個體。

Cloud Monitoring 控制台提供多種 Spanner 監控工具:

如果您偏好以程式輔助方式監控 Spanner,請使用 Cloud Monitoring 的 Cloud 用戶端程式庫擷取指標。

,快速查看執行個體最重要的指標。

使用 Cloud Monitoring 精選資訊主頁

Cloud Monitoring 提供經過規劃的資訊主頁,匯總有關 Spanner 執行個體的重要資訊,包括:

  • 事件:使用者建立的監控快訊,狀態可以是待解決、處理中或已解決
  • 事件:Spanner 稽核記錄清單 (如果已啟用且可用)
  • 執行個體:Spanner 執行個體的高階摘要,包括運算能力、資料庫數量和執行個體健康狀態
  • 總處理量和儲存空間使用量的「匯總圖表」

如要查看 Spanner 資訊主頁,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:

    前往「Monitoring」頁面

  2. 如果導覽窗格中顯示「Resources」,請依序選取「Resources」和「Cloud Spanner」。否則,請選取「Dashboards」,然後選取名為「Cloud Spanner」的資訊主頁。

查看執行個體和資料庫詳細資料

開啟 Spanner 的經過精選的資訊主頁時,系統會顯示所有執行個體的匯總資料。您可以在「Instances」下方按一下執行個體的名稱,查看特定執行個體的更多詳細資料。

資訊主頁會顯示許多資訊,例如執行個體中繼資料、執行個體中的資料庫,以及依地區細分的各種指標的圖表。

在執行個體資訊主頁頁面中,您也可以查看該執行個體中特定資料庫的圖表:

  1. 在畫面右側,執行個體指標圖表的上方,按一下 [Database metrics] (資料庫指標)

  2. 在「Select a breakdown」下拉式清單中,選取要檢查的資料庫。

    Cloud Monitoring 主控台會顯示資料庫的圖表。

為 Spanner 指標建立自訂圖表

您可以使用 Cloud Monitoring 為 Spanner 指標建立自訂圖表。您可以使用 Metrics Explorer 建立臨時性、臨時圖表,也可以建立在自訂資訊主頁上顯示的圖表。

特別是,Cloud Monitoring 可讓您建立自訂圖表,顯示兩個或更多指標是否彼此相關。舉例來說,您可以檢查 Spanner 執行個體中的CPU 使用率延遲之間的關聯,這可能表示執行個體需要更多運算資源,或是部分查詢導致 CPU 使用率過高。

如要開始使用這個範例,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中選取「Monitoring」,或使用下列按鈕:

    前往「Monitoring」頁面

  2. 如果導覽窗格中顯示「Metrics Explorer」,請選取該選項。否則,請依序選取「Resources」和「Metrics Explorer」

  3. 按一下「View options」分頁標籤,然後選取「Log scale on Y-axis」核取方塊。當某個指標的值遠大於其他指標時,您可以使用這個選項比較多個指標。

  4. 在右側窗格上方的下拉式清單中,選取「Line」

  5. 按一下「指標」分頁標籤。您現在可以將指標新增至圖表。

如要在圖表中新增延遲指標,請按照下列步驟操作:

  1. 在「Find resource type and metric」方塊中輸入值 spanner.googleapis.com/api/request_latencies,然後點選方塊下方顯示的資料列。
  2. 在「Filter」方塊中輸入值 instance_id,然後輸入要檢查的執行個體 ID,並按一下「Apply」
  3. 在「Aggregator」下拉式選單中,按一下「max」
  4. 選用:變更延遲時間百分位數:

    1. 按一下 [Show advanced options] (顯示進階選項)
    2. 按一下「Aligner」Aligner下拉式清單,然後點選要查看的延遲百分比。

      在大多數情況下,您應查看第 50 百分位數延遲時間,瞭解延遲時間的一般情況,或是查看第 99 百分位數延遲時間,瞭解最慢 1% 要求的延遲時間。

如要將 CPU 使用率指標加入圖表,請按照下列步驟操作:

  1. 按一下「新增指標」
  2. 在「Find resource type and metric」方塊中輸入值 spanner.googleapis.com/instance/cpu/utilization,然後點選方塊下方顯示的資料列。
  3. 在「Filter」方塊中輸入值 instance_id,然後輸入要檢查的執行個體 ID,並按一下「Apply」
  4. 在「Aggregator」下拉式選單中,按一下「max」

您現在有一個圖表,可顯示 Spanner 執行個體的 CPU 使用率和延遲指標。如果兩項指標同時高於預期,您可以採取其他步驟來修正問題

如要進一步瞭解如何建立自訂圖表,請參閱 Cloud Monitoring 說明文件

建立 Spanner 指標的快訊

建立 Spanner 執行個體時,您可以選擇執行個體的運算容量。隨著執行個體的工作負載變化,Spanner 不會自動調整執行個體的運算能力。因此,您需要設定多個快訊,確保執行個體維持在建議的 CPU 使用率上限建議的儲存空間限制內。

以下範例說明如何為部分 Spanner 指標設定快訊政策。如需可用指標的完整清單,請參閱 Spanner 的指標清單

高優先順序 CPU

如要建立快訊政策,以便在 Spanner 的高優先順序 CPU 使用率超過建議門檻時觸發,請使用下列設定。

新條件
欄位

資源和指標 在「Resources」選單中,選取「Spanner 執行個體」
在「指標類別」選單中,選取「執行個體」
在「指標」選單中,選取「依優先順序顯示 CPU 使用率」

(metric.type 為 spanner.googleapis.com/instance/cpu/utilization_by_priority)。
篩選 instance_id = YOUR_INSTANCE_ID
priority = high
跨時間序列
時間序列分組依據
location 用於多地區執行個體;
用於地區執行個體,請留空。
跨時間序列
時間序列匯總
sum
滾動週期 10 m
滾動週期函式 mean
設定快訊觸發條件
欄位

條件類型 Threshold
快訊觸發條件 Any time series violates
門檻位置 Above threshold
門檻值 45% 用於多地區執行個體;
65% 用於地區執行個體。
重新測試週期 10 minutes

24 小時累計平均 CPU

如要建立快訊政策,以便在 Spanner 的 CPU 使用率 24 小時滾動平均值超過建議的臨界值時觸發通知,請使用下列設定。

新條件
欄位

資源和指標 在「Resources」選單中,選取「Spanner 執行個體」
在「指標類別」選單中,選取「執行個體」
在「Metrics」選單中,選取「Smoothed CPU utilization」

(metric.type 為 spanner.googleapis.com/instance/cpu/smoothed_utilization)。
篩選 instance_id = YOUR_INSTANCE_ID
跨時間序列
時間序列匯總
sum
滾動週期 10 m
滾動週期函式 mean
設定快訊觸發條件
欄位

條件類型 Threshold
快訊觸發條件 Any time series violates
門檻位置 Above threshold
門檻 90%
重新測試週期 10 minutes

儲存空間

如要建立快訊政策,以便在 Spanner 執行個體的儲存空間超過建議門檻時觸發通知,請使用下列設定。

新條件
欄位

資源和指標 在「Resources」選單中,選取「Spanner 執行個體」
在「指標類別」選單中,選取「執行個體」
在「指標」選單中,選取「已使用的儲存空間」

(metric.type 為 spanner.googleapis.com/instance/storage/utilization)。
篩選 instance_id = YOUR_INSTANCE_ID
跨時間序列
時間序列匯總
sum
滾動週期 10 m
滾動週期函式 max
設定快訊觸發條件
欄位

條件類型 Threshold
符合下列情況時觸發條件 Any time series violates
門檻位置 Above threshold
門檻值 您不需要為每個節點的儲存空間上限設定特定閾值。不過,我們建議您設定快訊,以便在接近儲存空間上限時收到通知。詳情請參閱「儲存空間使用率指標」。
重新測試週期 10 minutes

後續步驟