使用 CloudOps 確保營運就緒性和效能

Last reviewed 2024-10-31 UTC

Google Cloud Well-Architected Framework 的卓越營運支柱包含這項原則,可協助您確保雲端工作負載的營運準備就緒和效能。這項原則強調要明確訂定服務效能的預期成果和承諾、實作健全的監控和警報機制、進行效能測試,以及主動規劃容量需求。

原則總覽

不同機構對作業準備就緒的解讀可能不同。 作業準備程度是指貴機構為在 Google Cloud上順利運作工作負載所做的準備。如要準備運作複雜的多層雲端工作負載,必須仔細規劃上線和day-2的作業。這些作業通常稱為「CloudOps」CloudOps

營運準備就緒的重點領域

營運準備狀態包含四個重點領域。每個重點領域都包含一組活動和元件,這些是準備在 Google Cloud中操作複雜應用程式或環境時的必要條件。下表列出各個重點領域的元件和活動:

營運準備就緒的重點領域 活動和元件
工作團隊
  • 為管理及運作雲端資源的團隊明確劃分角色和職責。
  • 確保團隊成員具備適當技能。
  • 制定學習計畫。
  • 建立明確的團隊結構。
  • 聘用所需人才。
程序
  • 觀測能力。
  • 管理服務中斷。
  • 雲端傳送。
  • 核心雲端作業。
工具 支援 CloudOps 程序所需的工具。
管理
  • 服務等級和報表。
  • 雲端財務。
  • 雲端作業模式。
  • 架構審查和管理委員會。
  • 雲端架構和法規遵循。

建議

如要確保使用 CloudOps 服務時的運作準備情況和效能,請參考下列各節的建議。本文中的每項建議都與一或多個作業準備就緒的重點領域相關。

定義服務等級目標和服務水準協議

雲端作業團隊的核心責任是為所有重要工作負載定義服務等級目標 (SLO) 和服務水準協議 (SLA)。這項建議與營運準備狀態的治理重點領域相關。

服務等級目標必須符合 SMART 原則,也就是具體 (Specific)、可衡量 (Measurable)、可達成 (Achievable)、相關 (Relevant) 且有時限 (Time-bound),並反映您期望的服務和效能水準。

  • 具體:清楚說明所需的服務和效能等級。
  • 可評估:可量化及追蹤。
  • 可達成:在貴機構的能力和資源限制內可達成。
  • 相關性:符合業務目標和優先事項。
  • 具有時效性:設有明確的評估時間範圍。

舉例來說,網頁應用程式的 SLO 可能為「可用性達 99.9%」或「平均回應時間少於 200 毫秒」。這類服務等級目標可明確定義網頁應用程式所需的服務和效能等級,且可隨時間測量及追蹤。

服務水準協議會列出對客戶的服務可用性、效能和支援承諾,包括違規的任何處罰或補救措施。服務等級協議必須包含所提供服務的具體詳細資料、可預期的服務等級、服務供應商和客戶的責任,以及任何違規的處罰或補救措施。服務水準協議是雙方的合約協議,可確保雙方清楚瞭解與雲端服務相關的期望和義務。

Google Cloud 提供 Cloud Monitoring 和服務水準指標 (SLI) 等工具,協助您定義及追蹤 SLO。Cloud Monitoring 提供完善的監控和可觀測性功能,協助貴機構收集及分析與雲端應用程式和服務可用性、效能和延遲時間相關的指標。服務水準指標是特定指標,可用來測量及追蹤一段時間內的服務水準目標。善用這些工具,就能有效監控及管理雲端服務,確保服務符合 SLO 和 SLA。

清楚定義並傳達所有重要雲端服務的服務等級目標和服務等級協議,有助於確保部署的應用程式和服務的可靠性和效能。

實作完善的觀測能力

為即時掌握雲端環境的健康狀態和效能,建議您同時使用 Google Cloud Observability 工具 和第三方解決方案。這項建議與運作準備程度的下列重點領域相關:程序和工具。

導入多種觀測解決方案,可制定涵蓋雲端基礎架構和應用程式各個層面的全面觀測策略。Google Cloud Observability 是一個整合式平台,可從各種服務、應用程式和外部來源收集、分析及視覺化指標、記錄和追蹤記錄。Google Cloud 透過 Cloud Monitoring,您可以深入瞭解資源用量、效能特徵和整體健康狀態。

為確保全面監控,請監控與系統健康狀態指標一致的重要指標,例如 CPU 使用率、記憶體用量、網路流量、磁碟 I/O 和應用程式回應時間。您也必須考量業務專屬指標。追蹤這些指標有助於找出潛在瓶頸、效能問題和資源限制。此外,您也可以設定快訊,主動通知相關團隊潛在問題或異常狀況。

如要進一步強化監控功能,您可以將第三方解決方案與 Google Cloud Observability 整合。這些解決方案可提供額外功能,例如進階分析、機器學習輔助的異常偵測,以及事件管理功能。結合 Google Cloud Observability 工具和第三方解決方案,即可建立強大且可自訂的監控生態系統,滿足您的特定需求。透過這種組合式做法,您可以主動找出並解決問題、最佳化資源使用情形,以及確保雲端應用程式和服務的整體可靠性和可用性。

實作效能和負載測試

定期執行效能測試,有助於確保雲端應用程式和基礎架構能處理尖峰負載,並維持最佳效能。負載測試會模擬實際的流量模式。壓力測試會將系統推向極限,找出潛在的瓶頸和效能限制。這項建議與運作準備程度的下列重點領域相關:程序和工具。

Cloud Load Balancing負載測試服務等工具可協助您模擬實際流量模式,並對應用程式進行壓力測試。這些工具可提供寶貴的洞察資料,瞭解系統在各種負載條件下的行為,並協助您找出需要最佳化的領域。

您可以根據效能測試結果,決定如何最佳化雲端基礎架構和應用程式,以達到最佳效能和可擴充性。這項最佳化作業可能包括調整資源分配、微調設定,或實作快取機制。

舉例來說,如果您發現應用程式在流量高峰期會變慢,可能就需要增加分配給應用程式的虛擬機器或容器數量。或者,您可能需要調整網路伺服器或資料庫的設定,以提升效能。

定期進行效能測試並實作必要的最佳化措施,可確保雲端應用程式和基礎架構始終以最佳效能運作,為使用者提供流暢且反應迅速的體驗。這樣做有助於維持競爭優勢,並贏得顧客信任。

規劃及管理容量

主動規劃未來的容量需求 (包括自然或非自然需求),有助於確保雲端系統順暢運作及擴充性。這項建議與營運準備程度的流程重點領域相關。

規劃未來容量時,請瞭解及管理運算執行個體、儲存空間和 API 要求等各種資源的配額。分析過往的使用模式、成長預測和業務需求後,您就能準確預測未來的容量需求。您可以使用 Cloud MonitoringBigQuery 等工具收集及分析使用資料、找出趨勢,並預測未來的需求。

過往用量模式可提供寶貴的洞察資料,瞭解一段時間內的資源用量。您可以查看 CPU 使用率、記憶體用量和網路流量等指標,找出需求量高的時段和潛在瓶頸。此外,您也可以根據使用者群成長、新產品和功能,以及行銷活動等因素,預估未來的容量需求。評估容量需求時,您也應考量服務層級協議和效能目標等業務需求。

決定工作負載的資源大小時,請考量可能影響資源使用率的因素。季節性變化 (例如節慶購物季或季末特賣) 可能會導致需求暫時暴增。產品上市或行銷活動等預定事件,也可能大幅增加流量。為確保主要和災難復原 (DR) 系統能應付非預期的需求量暴增,請規劃足夠的容量,以便在發生天災和網路攻擊等中斷事件時,支援正常容錯移轉。

自動調度資源是重要的策略,可根據工作負載波動動態調整雲端資源。使用自動調度資源政策,即可根據需求變化自動調度運算執行個體、儲存空間和其他資源。這項功能可確保在尖峰時段達到最佳效能,並在資源用量偏低時盡量減少費用。自動調度演算法會使用 CPU 使用率、記憶體用量和佇列深度等指標,判斷何時要調度資源。

持續監控及最佳化

如要管理及最佳化雲端工作負載,您必須建立程序,持續監控及分析效能指標。這項建議與營運準備就緒的重點領域相關:程序和工具。

如要建立持續監控和分析的程序,請追蹤、收集及評估與雲端環境各個層面相關的資料。您可以運用這項資料主動找出有待改善的地方、提升資源使用效率,並確保雲端基礎架構持續達到或超出您的效能期望。

定期檢查記錄和追蹤記錄,是監控效能的重要環節。記錄檔可提供系統事件、錯誤和警告方面的寶貴深入分析資料。追蹤記錄會提供應用程式中要求流程的詳細資訊。分析記錄和追蹤記錄,有助於找出潛在問題、瞭解問題的根本原因,以及深入瞭解應用程式在不同情況下的行為。服務之間的往返時間等指標,有助於找出並瞭解工作負載中的瓶頸。

此外,您可以使用效能調整技術,大幅提升應用程式回應時間和整體效率。以下列舉幾個可用的技術:

  • 快取:將經常存取的資料儲存在記憶體中,減少重複的資料庫查詢或 API 呼叫需求。
  • 資料庫最佳化:運用索引和查詢最佳化等技術,提升資料庫作業的效能。
  • 程式碼剖析:找出程式碼中耗用過多資源或導致效能問題的區域。

套用這些技巧後,您就能最佳化應用程式,確保應用程式在雲端中有效率地執行。