本頁面由 Cloud Translation API 翻譯而成。

觀察及監控 VM

本文件說明如何存取及查看虛擬機器 (VM) 指標。並說明如何查看 VM 指標，進一步瞭解 VM 或排解 VM 的特定問題。

監控虛擬機器 (VM) 執行個體對於維護 VM 資源至關重要。您可以使用 Google Cloud 主控台中的「觀測功能」分頁標籤，概略瞭解 Compute Engine 虛擬機指標。這個分頁會使用遙測資料提供預先定義的資訊主頁，方便您監控 VM，並針對 Compute Engine 資源做出明智的決策。您也可以自訂預先定義的資訊主頁，只查看所需的特定指標。

所有 VM 在建立時都會提供基本程序用量資料。不過，安裝 Ops Agent 可深入瞭解 VM 行為。

如要進一步瞭解如何建立監控快訊政策、使用 Metrics Explorer，或是瞭解監控和指標在 Google Cloud上的運作方式，請參閱 Cloud Monitoring 說明文件。

事前準備

選用：安裝作業套件代理程式，從 Compute Engine 執行個體收集更詳細的資料。

如要查看哪些 VM 執行個體已安裝 Ops Agent，請執行下列操作：

在 Google Cloud 控制台中，前往「Monitoring Dashboards」

前往「Monitoring Dashboards」(Monitoring 資訊主頁)
從資訊主頁清單中選取「VM 執行個體」。
按一下「清單」，即可以清單形式查看 VM。

系統會顯示專案中的所有 VM。「Agent」欄會顯示 Ops Agent 安裝狀態。您可以透過這個頁面安裝或更新代理程式。
選用：如要更新預先定義資訊主頁，以便顯示事件 (例如表示已更新受管理的執行個體群組的事件)，請按一下「選取事件」，然後完成對話方塊。

如要進一步瞭解事件，請參閱「事件類型」。

存取 VM 觀測能力指標

使用 Google Cloud 控制台的「Observability」分頁，存取單一或多個 VM 的資訊。根據預設，預先定義的資訊主頁會顯示 VM 指標。如果您只想查看特定指標，可以建立自訂資訊主頁。

查看單一 VM 的觀測能力指標

建立 VM 時，您可以使用 CPU 使用率和網路流量等基本 VM 指標。記憶體和程序使用率的指標只有在安裝作業套件代理程式後才可使用，這是從 Compute Engine 執行個體收集遙測資料的主要代理程式。

如要查看單一 VM 的指標，請按照下列步驟操作：

前往 Google Cloud 控制台的「VM instances」(VM 執行個體) 頁面。

前往 VM 執行個體
選取 VM 即可開啟「Details」頁面。
按一下「Observability」(觀測能力) 分頁標籤，即可顯示 VM 相關資訊。
選用：將一小時的預設時間範圍重設為您要監控的時間範圍。
選用：如要更新預先定義資訊主頁，以便顯示事件 (例如表示已更新受管理的執行個體群組的事件)，請按一下「選取事件」，然後完成對話方塊。

如要進一步瞭解事件，請參閱「事件類型」。

圖 1 中的資訊會顯示 VM 詳細資料，但 VM 上未安裝 Ops Agent。請注意，「Memory」和「Disk Space Utilization」圖表沒有資料。

未安裝作業套件代理程式的 VM 的「可觀察性」分頁。 — *圖 1*：未安裝作業套件代理程式的單一 VM 的「Observability」分頁。

查看多個 VM 的觀測能力指標

機群層級的觀測能力會顯示前五個程序使用率最高的 VM 指標。列出的前五個 VM 會因指標而異。每個程序可能不會顯示相同的五個 VM。雖然在未安裝 Ops Agent 的機隊層級，可用的資料量會比單一 VM 的資料量多，但安裝代理程式可提供更多資料，以利日後進行疑難排解。

如要查看多個 VM 的指標，請按照下列步驟操作：

前往 Google Cloud 控制台的「VM instances」(VM 執行個體) 頁面。

前往 VM 執行個體
點選「Observability」分頁標籤。
選用：將一小時的預設時間範圍重設為您要監控的時間範圍。
依下列一或多個選項篩選結果：
- ID
- 名稱
- 機型
- 可用區
- 地區
- 執行個體群組
- 標籤
- 狀態

圖 2 中的資訊顯示了當專案中的多個 VM 已安裝作業套件代理程式時，觀察性分頁的範例。請注意，這些 VM 提供更多指標。

已安裝作業套件代理程式的多個 VM 執行個體。 — *圖 2*：安裝作業套件代理程式的多個 **VM 執行個體**。

查看 VM 的詳細指標

每個 VM 程序指標都會以圖表中的圖形線條表示。在以下範例中，uptime-demo VM 已安裝作業套件代理程式。記憶體使用率資料可用於排解問題。如果資訊卡上未列出 VM，請依據 VM 名稱篩選，找出特定的 VM。

如要從「可觀測性」分頁中擷取此 VM 或其他前五大 VM 的相關資訊，請執行下列操作：

將滑鼠游標懸停在任一 VM 的圖表線條上。系統會顯示資訊卡，列出使用該程序的前五大 VM，每個 VM 都會顯示一項指標。
如要進一步瞭解 VM 的行為，請按一下清單中的 VM 圖表線條或特定 VM 名稱。

上線時間-示範 VM 顯示在圖 3 的資訊卡上，揭露了一些可能需要審查的指標。

圖表線條代表虛擬機器。按一下該圖示，即可進一步瞭解特定 VM。 — *圖 3*：圖表線條代表 VM。點選該圖示即可進一步瞭解特定 VM。

按一下 uptime-demo VM，開啟 圖 4 所示的「VM Details」頁面，其中提供以下資訊：

作業套件代理程式狀態。
建立快訊、檢查事件或建立運作時間檢查的內容相關選項。
可用來查看 VM 設定、指標和記錄的詳細資料。

「VM 詳細資料」頁面會提供特定 VM 的相關資訊。 — *圖 4*：VM 詳細資料頁面會提供特定 VM 的相關資訊。

建立自訂資訊主頁，查看特定指標

根據預設，Compute Engine 中的「Observability」分頁會提供預先定義的資訊主頁，用於顯示基本 VM 指標。如要只查看特定指標，您可以修改預先定義的資訊主頁，並將其儲存為自訂資訊主頁。您可以視需求進一步自訂資訊主頁。

如要建立自訂資訊主頁，請執行下列操作：

前往 Google Cloud 控制台的「VM instances」(VM 執行個體) 頁面。

前往 VM 執行個體
依序前往「Observability」(觀測能力) 分頁：
- 針對單一 VM：在「VM instances」頁面中，按一下 VM 名稱，開啟該 VM 的「Details」頁面，然後按一下該 VM 的「Observability」分頁。
- 如為多個 VM：在「VM instances」頁面中，按一下「Observability」分頁。
如果啟用「Dashboard」下拉式選單，即可使用自訂資訊主頁。如要修改自訂檢視畫面，請從下拉式選單中選取自訂檢視畫面，然後在資訊主頁工具列中按一下。
如要自訂預先定義的資訊主頁，請在資訊主頁工具列中按一下。

Compute Engine 會建立預先定義資訊主頁的副本，然後在編輯模式中開啟副本。
您可以在編輯器中新增、修改、刪除、重新調整位置或調整資訊主頁中視覺化報表的大小。這些視覺化項目統稱為「小工具」。如要進一步瞭解不同小工具類型，請參閱「資訊主頁總覽」。
- 如要新增小工具，請在資訊主頁工具列中按一下「Add widget」(新增小工具) ，然後完成設定。
  
  舉例來說，如要查看含有指標資料的記錄檔，請按一下「Add widget」(新增小工具)，選取「Logs」(記錄檔)，然後按一下「Apply」(套用)。
- 如要修改小工具，請將游標放在小工具上以啟用工具列，然後按一下「編輯小工具」，並使用「設定小工具」對話方塊。如要將變更套用至資訊主頁，請在工具列中按一下「套用」。如要捨棄變更，請按一下「取消」。
- 如要刪除小工具，請將游標放在小工具上以啟用工具列，然後依序按一下「More chart options」和「Delete」。
- 如要調整小工具的位置，請使用指標將小工具拖曳至新位置。
- 如要調整小工具大小，請使用指標調整小工具的右側角落位置。
修改資訊主頁後，請按一下「儲存」。
在確認變更的對話方塊中，按一下「查看自訂資訊主頁」，前往自訂檢視畫面。

如要切換回預先定義的檢視畫面，請在「資訊主頁」下拉式選單中選取「預先定義」。

查看資源指標

如要進一步瞭解每項資源指標，請按一下「Observability」分頁標籤選單中的每個程序：

探索 CPU、程序、記憶體使用率、網路流量和磁碟使用率。
搜尋「記錄」來查看記錄資料，找出並查看「系統事件」。
新增第三方整合，並檢查是否有已設定的現有整合。

本節的其餘部分將舉例說明某些程序如何影響工作負載。這項資訊假設作業套件代理程式已安裝在 VM 上。

CPU 使用率

當伺服器負載過重時，就可能會出現 CPU 使用率過高的情況，例如網站流量突然激增，或是正在進行大規模資料處理作業時。在這種情況下，CPU 可能會以 100% 的效能運作一段時間，導致伺服器速度變慢或停止回應。

在本例中，飽和度是需要注意的部分。如果 CPU 使用率為 100%，對工作負載來說可能沒問題，但您可能需要檢查其他指標，瞭解是否需要介入。在這種情況下，建議您建立警示政策，以便在 VM 的 CPU 使用率激增時收到通知。

只要具備適當的權限，您就可以使用 SSH 連線至 VM，以便調查問題。不過，如果您已安裝 Ops Agent，就能查看更多歷來資料，協助您排解問題。

程序使用率

極端程序行為的例子包括：程序消耗過多資源 (例如 CPU、記憶體或磁碟 I/O)，導致效能降低，甚至導致 VM 當機。

舉例來說，如果在 VM 上執行的程序發生記憶體流失，可能會開始消耗越來越多的記憶體，最終導致 VM 記憶體用盡而當機。同樣地，如果某個程序大量使用磁碟，可能會導致 VM 的磁碟 I/O 飽和，導致其他程序的回應時間變慢。

記憶體使用率

資料庫需要大量記憶體才能執行索引、排序和彙整資料表等作業。

舉例來說，如果您執行資料庫伺服器 (例如 Cloud SQL for MySQL 或 Cloud SQL for PostgreSQL)，且資料集很大，VM 就會使用大量記憶體。如果 VM 的可用記憶體太少，重新載入資料集至記憶體中可能會導致資料庫執行速度變慢或當機。

網路效能

網路效能問題是由於各種因素造成，包括壅塞、頻寬限制、硬體或軟體問題，以及延遲。如要診斷問題，請監控網路效能指標、排除硬體和軟體問題，並分析網路流量模式，找出並解決問題的根本原因。

磁碟使用率

如果有大量資料從虛擬磁碟讀取或寫入，導致磁碟存取延遲，並可能影響 VM 效能，就會發生 VM 磁碟使用率過高的問題。

監控磁碟使用率指標 (例如每秒磁碟 I/O 作業數 (IOPS)、磁碟佇列長度和平均磁碟回應時間) 有助於找出及診斷 VM 上的高磁碟使用率問題。

查看記錄和系統事件

「所有記錄檔」頁面會提供資源的記錄檔資料。依嚴重程度排序，找出問題並檢查酬載。

稽核記錄會記錄資源中發生的管理事件。記錄可讓您瞭解觸發事件的情況。系統會在同一個資料列中記錄及維護多個記錄，舉例來說，如果您有 20 個相同的記錄，系統會將資訊儲存在一個資料列中，而不是 20 個個別資料列。

您可以將「系統事件」視為涵蓋較高層級事件的總稱，但這些事件可能會影響您的 Compute Engine 資源。當系統發生與排程事件無關的錯誤時，就會觸發系統事件。系統事件會在機群層級記錄。

使用第三方整合服務

Monitoring 提供與第三方應用程式的整合功能。這些整合功能可讓您針對在 Compute Engine 和 GKE 上執行的部署作業，從 Apache 網路伺服器、MySQL 適用的 Cloud SQL、Memorystore for Redis 等應用程式收集遙測資料。使用 Compute Engine 時，作業套件代理程式會收集第三方遙測資料。