使用 Google Cloud 的 Agent for SAP 進行程序監控

本規劃指南僅著重於 Google Cloud的 SAP 代理程式提供的處理程序監控指標收集功能。如要瞭解代理程式及其所有功能的相關資訊,請參閱 Google Cloud的 SAP 代理程式規劃指南

在 Linux 上, Google Cloud的 SAP 代理程式可協助您監控 SAP 應用程式中的程序,以及這些程序的執行階段狀態。這項資訊是透過收集程序監控指標取得,您可以在 Compute Engine 執行個體或裸機解決方案伺服器上安裝代理程式後啟用這項指標。

在「Process Monitoring」指標中收集的資訊,有助於您排解 SAP 系統相關問題。在發生問題時,Cloud Customer Care 可透過 Process Monitoring 指標協助您更有效率地解決問題。使用 Process Monitoring 指標收集的資料,可讓您觀察 SAP HANA 高可用性叢集設定。

如要瞭解如何設定 Google Cloud的 Agent for SAP 以收集 Process Monitoring 指標,請參閱「設定 Process Monitoring 指標收集作業」。

程序監控指標的類型

自 Google Cloud的 Agent for SAP 2.6 版起,代理程式收集的 Process Monitoring 指標如下:

  • 快速變動指標:包括 sap/hana/availabilitysap/hana/ha/availabilitysap/nw/availability。這些指標的收集頻率預設為 5 秒。您可以使用設定參數 process_metrics_frequency 更新這項收集頻率。
  • 緩慢變動指標:除了快速變動指標以外,其他程序監控指標都稱為緩慢變動指標。這些指標的收集頻率預設為 30 秒。您可以使用設定參數 slow_process_metrics_frequency 更新這項收集頻率。

Cloud Monitoring 定價

Google Cloud的 SAP 代理程式收集並傳送至 Monitoring 的程序監控指標,會由 Monitoring 歸類為計費指標,並依據擷取的資料量計費。

代理程式查詢 SAP 系統以收集 Process Monitoring 指標的頻率,會影響傳送至 Monitoring 的指標量。

根據預設,Process Monitoring 指標是快速變動的指標,每 5 秒收集一次。

如要進一步瞭解 Monitoring 的定價,請參閱 Google Cloud Observability 定價

預估費用範例

如要查看使用Google Cloud的 SAP 專用代理程式收集 Process Monitoring 指標的費用預估值,請參閱「根據擷取的位元組數計費的指標計費示例」。

程序監控指標

下表說明 Google Cloud的 SAP 代理程式所收集的程序監控指標。此表格中的指標字串必須加上前置字串 workload.googleapis.com/。下表中的項目已省略這個前置字串。

指標 類別 說明
sap/hana/service SAP HANA SAP HANA 服務可用性的數字回應代碼。
  • 0:服務未執行
  • 1:服務正在執行
sap/hana/ha/replication SAP HANA 根據 SAP 系統 ID、SAP 執行個體編號和 SAP 服務名稱,提供 SAP HANA 系統複製的數字回應代碼。
  • 0:發生錯誤。
  • 10:沒有系統複製功能 (獨立模式)。
  • 11:連線發生錯誤。
  • 12:自主要系統上次重新啟動後,次要系統就未連線至主要系統。
  • 13:初始資料移轉作業進行中。在這個狀態下,次要系統完全無法使用。
  • 14:次要系統正在重新進行同步處理。例如,在暫時中斷連線或重新啟動次要系統後。
  • 15:與主要系統的初始化或同步作業已完成,次要系統會持續複製。SYNC 模式不會導致資料遺失。
sap/hana/availability SAP HANA 根據 SAP 系統 ID 和 SAP 執行個體編號,提供 SAP HANA 系統可用性的數字回應代碼。
  • 0:一或多個程序未啟用
  • 1:所有程序皆處於活動狀態
sap/hana/ha/availability SAP HANA 代表 SAP HANA 系統高可用性狀態的數字回應代碼,根據 SAP 系統 ID 和 SAP 例項編號。
  • 0:不明狀態
  • 1:目前的節點為次要節點
  • 2:主要節點發生錯誤
  • 3:主節點已上線,但複製作業無法完全運作
  • 4:主節點已上線,且複製作業正在執行
sap/hana/query/state SAP HANA 代表 SAP HANA 健康檢查的數字回應代碼,根據查詢 select * from dummy 計算。值為 0 表示成功。其他值則表示失敗。
sap/hana/query/overalltime SAP HANA 只有在 query/state0 時才會回報。這是查詢所需的總時間,包括用戶端時間和伺服器端時間,以微秒為單位。
sap/hana/query/servertime SAP HANA 只有在 query/state0 時才會回報。這是伺服器處理查詢所需的時間,以微秒為單位。
sap/hana/log/utilisationkb SAP HANA 指定 SAP HANA 記錄磁碟區使用的磁碟空間 (KB)。

這項指標自 3.8 版代理程式起開始支援。

sap/cluster/failcounts SAP HANA Linux HA 資源的 failcount 值。如果沒有資源,則不會註冊失敗次數。否則,叢集監控 crm_mon 會回報失敗動作的數量。
sap/cluster/nodes Pacemaker 叢集 數字回應碼,用於指出 Linux HA 叢集狀態。
  • -10:不明
  • -1:不乾淨的狀態
  • 0:關機
  • 1:待機
  • 2:線上
sap/cluster/resources Pacemaker 叢集 數字回應代碼,用於指出 Linux HA 叢集資源是否已啟用及執行。
  • -10:不明
  • 0:失敗
  • 1:已停止
  • 2:啟動
  • 3:資源處於下列任一穩定狀態:MasterSlaveStarted
sap/nw/availability SAP NetWeaver 代表 SAP NetWeaver 系統可用性的數字回應代碼,取決於 SAP 系統 ID、SAP 執行個體編號和 SAP 服務名稱。
  • 0:狀態不明
  • 1:目前的節點處於有效或上線狀態
sap/nw/service SAP NetWeaver 代表 SAP NetWeaver 服務可用性的數字回應代碼,取決於 SAP 系統 ID、SAP 執行個體編號和 SAP 服務名稱。
  • 0:服務未執行
  • 1:服務正在執行
sap/nw/icm/rcode SAP NetWeaver 回應碼,根據未經驗證的 ICM 網址資源 (本機呼叫) 的 HTTP 1.1 通訊協定。
sap/nw/icm/rtime SAP NetWeaver 未經過驗證的 ICM 網址資源 (本機呼叫) 回應時間 (以毫秒為單位)。
sap/nw/ms/rcode SAP NetWeaver 回應代碼,根據未經驗證的 Message Server 網址資源 (本機呼叫) 的 HTTP 1.1 通訊協定。
sap/nw/ms/rtime SAP NetWeaver 未經驗證的 Message Server 網址資源 (本機呼叫) 回應時間 (以毫秒為單位)。
sap/nw/ms/wp SAP NetWeaver Message Server 資訊頁面所回報的 ABAP 工作程序 (NW ABAP) 或 Java 伺服器節點 (NW Java) 數量。
sap/nw/abap/proc/busy SAP NetWeaver 忙碌的 ABAP 工作程序數量 (依類型區分,例如 DIA、ICM 和 DISP)。
sap/nw/abap/proc/count SAP NetWeaver 所有 ABAP 工作程序的數量,依類型區分,例如 DIA、ICM 和 DISP。
sap/nw/abap/queue/current SAP NetWeaver ABAP 工作程序目前使用的 ABAP 佇列數量,按工作程序類型 (例如 DIAICMDISP) 分組。
sap/nw/abap/queue/peak SAP NetWeaver ABAP 工作程序使用的 ABAP 佇列的最高數量,按工作程序類型 (例如 DIAICMDISP) 分組。
sap/nw/abap/sessions SAP NetWeaver 依工作階段類型劃分的 ABAP 工作階段數。
sap/nw/abap/rfc SAP NetWeaver 按工作階段類型區分的 ABAP RFC 連線數。
sap/nw/enq/locks/usercountowner SAP NetWeaver SAP NetWeaver 系統中排入佇列的鎖數。如果系統有許多未鎖定的項目,可能會導致使用者發生效能問題。
sap/mntmode 其他 SAP 指標 手動設定的對應 SAP 系統 ID (SID) 的維護模式,用於表示系統是故意關閉 (maintenancemode = TRUE)。這個指標的值可用於抑制在預定維護期間無法使用的系統的快訊。

如要通知代理人特定 SID 是否正在進行預定維護作業,請執行下列指令:

google_cloud_sap_agent maintenance \
    --enable=TRUE or FALSE \
    --sid=SID
sap/service/is-failed 其他 SAP 指標 指出是否已失敗的 OS 服務與 SAP 和叢集服務相關。結束碼 0 代表失敗。
sap/service/is-disabled 其他 SAP 指標 系統會在未啟用 pacemakercorosyncsapconfsaptunesapinit 服務時填入這個指標。
sap/hana/cpu/utilization 其他 SAP 指標 SAP HANA 程序的每個程序 CPU 使用率 (%)。
sap/nw/cpu/utilization 其他 SAP 指標 SAP NetWeaver 程序的每個程序 CPU 使用率 (%)。
sap/control/cpu/utilization 其他 SAP 指標 SAP Control 程序的每個程序 CPU 使用率 (%)。
sap/hana/memory/utilization 其他 SAP 指標 HANA 程序的每個程序記憶體使用率 (MB)。
sap/nw/memory/utilization 其他 SAP 指標 NetWeaver 程序的每個程序記憶體使用率 (MB)。
sap/control/memory/utilization 其他 SAP 指標 SAP Control 程序的每個程序記憶體使用率 (MB)。
sap/hana/iops/reads 其他 SAP 指標 SAP HANA 程序的每個程序讀取 IOPS。
sap/hana/iops/writes 其他 SAP 指標 SAP HANA 程序的每個程序寫入 IOPS。
sap/nw/iops/reads 其他 SAP 指標 SAP NetWeaver 程序的讀取 IOPS 個別程序。
sap/nw/iops/writes 其他 SAP 指標 SAP NetWeaver 程序的每個程序寫入 IOPS。
sap/infra/migration Google Cloud 基礎架構指標 指出 Compute Engine 執行個體是否正在進行即時遷移
sap/pacemaker 其他 SAP 指標 這個數字回應代碼會指出主機是否包含 Pacemaker 設定。
  • 0:找不到心律調節器設定
  • 1:找到心律調節器設定

這個指標自 3.2 版代理程式起開始支援。

sap/hana/volumes 其他 SAP 指標

公開已掛載 SAP HANA 磁碟區的下列資訊:磁碟區總大小、已用儲存空間、可用儲存空間和儲存空間使用百分比。

這個指標自 3.2 版代理程式起開始支援。

sap/networkstats/rtt 其他 SAP 指標 平均往返時間 (以毫秒為單位)。

這個指標包含與 SAP HANA 系統相關的 TCP 連線資訊。使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的通訊端收集此指標。

sap/networkstats/rcv_rtt 其他 SAP 指標 如果沒有使用者空間消費該資料,遠端用戶端耗用目前宣傳的遠端接收視窗 (RWIN) 所需的時間。這項屬性會根據連線的觀察頻寬傳回非零值。

這個指標包含與 SAP HANA 系統相關的 TCP 連線資訊。使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的通訊端收集此指標。

sap/networkstats/rto 其他 SAP 指標 TCP 重傳逾時時間,以毫秒為單位。

這個指標包含與 SAP HANA 系統相關的 TCP 連線資訊。使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的通訊端收集此指標。

sap/networkstats/bytes_acked 其他 SAP 指標 已確認的位元組數。

這個指標包含與 SAP HANA 系統相關的 TCP 連線資訊。使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的通訊端收集此指標。

sap/networkstats/bytes_received 其他 SAP 指標 已收到的位元組數。

這個指標包含與 SAP HANA 系統相關的 TCP 連線資訊。使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的通訊端收集此指標。

sap/networkstats/lastsnd 其他 SAP 指標 自上次傳送封包以來的時間 (以毫秒為單位)。

這個指標包含與 SAP HANA 系統相關的 TCP 連線資訊。使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的通訊端收集此指標。

sap/networkstats/lastrcv 其他 SAP 指標 自上次接收封包以來經過的時間 (以毫秒為單位)。

這個指標包含與 SAP HANA 系統相關的 TCP 連線資訊。使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的通訊端收集此指標。

sap/compute/os/memory/mem_free_kb 運算資源 計算執行個體中未使用的記憶體量 (KB)。不含緩衝區或快取記憶體。
sap/compute/os/memory/mem_available_kb 運算資源 在運算執行個體上可用於啟動新應用程式 (不換頁) 的記憶體 (KB) 估計值。
sap/compute/os/memory/mem_total_kb 運算資源 運算執行個體的可用記憶體總量 (KB)。
sap/compute/os/memory/buffers_kb 運算資源 核心緩衝區使用的記憶體量 (KB)。
sap/compute/os/memory/cached_kb 運算資源 分頁快取和區塊使用的記憶體量 (KB)。
sap/compute/os/memory/swap_cached_kb 運算資源 交換空間用於快取的記憶體量 (KB)。
sap/compute/os/memory/commit_kb 運算資源 提交至 SAP 系統程序的記憶體量 (KB)。
sap/compute/os/memory/commit_percent 運算資源 將記憶體的百分比提交給 SAP 系統程序。
sap/compute/os/memory/active_kb 運算資源 最近使用的記憶體量 (KB),除非必要,否則通常不會回收。
sap/compute/os/memory/inactive_kb 運算資源 最近使用的記憶體量 (KB),且更適合用於其他用途。
sap/compute/os/memory/dirty_kb 運算資源 等待寫回磁碟的記憶體量 (KB)。
sap/compute/os/memory/shmem_kb 運算資源 tmpfs 檔案系統中使用的記憶體量 (KB)。
sap/compute/os/memory/freemem_total 運算資源 在運算執行個體上佈建的記憶體量 (KB),可供作業系統使用的記憶體量。
sap/compute/os/memory/freemem_used 運算資源 核心和執行中的 SAP 應用程式正在使用的記憶體量 (KB)。
sap/compute/os/memory/freemem_free 運算資源 未使用的記憶體量 (KB)。
sap/compute/os/memory/freemem_shared 運算資源 在運算執行個體上執行的程序之間共用的記憶體量 (KB)。
sap/compute/os/memory/freemem_buff/cache 運算資源 核心用於緩衝區和分頁快取的記憶體量 (KB)。
sap/compute/os/memory/freemem_available 運算資源 可用於啟動新應用程式,且不會導致系統交換的記憶體量 (KB)。
sap/compute/os/memory/freeswap_total 運算資源 在運算執行個體上設定的交換空間量 (KB)。
sap/compute/os/memory/freeswap_used 運算資源 正在使用的交換空間量 (KB)。
sap/compute/os/memory/freeswap_free 運算資源 未使用的可用交換空間量 (KB)。

在 Monitoring 中查看指標

Google Cloud 提供自訂資訊主頁,協助您以視覺化方式呈現 Google Cloud的 SAP 代理程式所收集的 Process Monitoring 指標。請參閱 GitHub 上 GoogleCloudPlatform/monitoring-dashboard-samples 存放區的 dashboards/google-cloud-agent-for-sap 目錄。

如要瞭解這些資訊主頁 (包括安裝操作說明),請參閱查看收集的指標

如要瞭解如何在 Monitoring 中找出指標資料,以及設定快訊通知,請參閱「Monitoring 中的指標」。