Google Cloud Well-Architected Framework 的卓越營運支柱包含這項原則,可協助您確保雲端工作負載的營運準備就緒和效能。這項原則強調要明確訂定服務效能的預期成果和承諾、實作健全的監控和警報機制、進行效能測試,以及主動規劃容量需求。
原則總覽
不同機構對作業準備就緒的解讀可能不同。 作業準備程度是指貴機構為在 Google Cloud上順利運作工作負載所做的準備。如要準備運作複雜的多層雲端工作負載,必須仔細規劃上線和day-2的作業。這些作業通常稱為「CloudOps」CloudOps。
營運準備就緒的重點領域
營運準備狀態包含四個重點領域。每個重點領域都包含一組活動和元件,這些是準備在 Google Cloud中操作複雜應用程式或環境時的必要條件。下表列出各個重點領域的元件和活動:
營運準備就緒的重點領域 | 活動和元件 |
---|---|
工作團隊 |
|
程序 |
|
工具 | 支援 CloudOps 程序所需的工具。 |
管理 |
|
建議
如要確保使用 CloudOps 服務時的運作準備情況和效能,請參考下列各節的建議。本文中的每項建議都與一或多個作業準備就緒的重點領域相關。
定義服務等級目標和服務水準協議
雲端作業團隊的核心責任是為所有重要工作負載定義服務等級目標 (SLO) 和服務水準協議 (SLA)。這項建議與營運準備狀態的治理重點領域相關。
服務等級目標必須符合 SMART 原則,也就是具體 (Specific)、可衡量 (Measurable)、可達成 (Achievable)、相關 (Relevant) 且有時限 (Time-bound),並反映您期望的服務和效能水準。
- 具體:清楚說明所需的服務和效能等級。
- 可評估:可量化及追蹤。
- 可達成:在貴機構的能力和資源限制內可達成。
- 相關性:符合業務目標和優先事項。
- 具有時效性:設有明確的評估時間範圍。
舉例來說,網頁應用程式的 SLO 可能為「可用性達 99.9%」或「平均回應時間少於 200 毫秒」。這類服務等級目標可明確定義網頁應用程式所需的服務和效能等級,且可隨時間測量及追蹤。
服務水準協議會列出對客戶的服務可用性、效能和支援承諾,包括違規的任何處罰或補救措施。服務等級協議必須包含所提供服務的具體詳細資料、可預期的服務等級、服務供應商和客戶的責任,以及任何違規的處罰或補救措施。服務水準協議是雙方的合約協議,可確保雙方清楚瞭解與雲端服務相關的期望和義務。
Google Cloud 提供 Cloud Monitoring 和服務水準指標 (SLI) 等工具,協助您定義及追蹤 SLO。Cloud Monitoring 提供完善的監控和可觀測性功能,協助貴機構收集及分析與雲端應用程式和服務可用性、效能和延遲時間相關的指標。服務水準指標是特定指標,可用來測量及追蹤一段時間內的服務水準目標。善用這些工具,就能有效監控及管理雲端服務,確保服務符合 SLO 和 SLA。
清楚定義並傳達所有重要雲端服務的服務等級目標和服務等級協議,有助於確保部署的應用程式和服務的可靠性和效能。
實作完善的觀測能力
為即時掌握雲端環境的健康狀態和效能,建議您同時使用 Google Cloud Observability 工具 和第三方解決方案。這項建議與運作準備程度的下列重點領域相關:程序和工具。
導入多種觀測解決方案,可制定涵蓋雲端基礎架構和應用程式各個層面的全面觀測策略。Google Cloud Observability 是一個整合式平台,可從各種服務、應用程式和外部來源收集、分析及視覺化指標、記錄和追蹤記錄。Google Cloud 透過 Cloud Monitoring,您可以深入瞭解資源用量、效能特徵和整體健康狀態。
為確保全面監控,請監控與系統健康狀態指標一致的重要指標,例如 CPU 使用率、記憶體用量、網路流量、磁碟 I/O 和應用程式回應時間。您也必須考量業務專屬指標。追蹤這些指標有助於找出潛在瓶頸、效能問題和資源限制。此外,您也可以設定快訊,主動通知相關團隊潛在問題或異常狀況。
如要進一步強化監控功能,您可以將第三方解決方案與 Google Cloud Observability 整合。這些解決方案可提供額外功能,例如進階分析、機器學習輔助的異常偵測,以及事件管理功能。結合 Google Cloud Observability 工具和第三方解決方案,即可建立強大且可自訂的監控生態系統,滿足您的特定需求。透過這種組合式做法,您可以主動找出並解決問題、最佳化資源使用情形,以及確保雲端應用程式和服務的整體可靠性和可用性。
實作效能和負載測試
定期執行效能測試,有助於確保雲端應用程式和基礎架構能處理尖峰負載,並維持最佳效能。負載測試會模擬實際的流量模式。壓力測試會將系統推向極限,找出潛在的瓶頸和效能限制。這項建議與運作準備程度的下列重點領域相關:程序和工具。
Cloud Load Balancing 和負載測試服務等工具可協助您模擬實際流量模式,並對應用程式進行壓力測試。這些工具可提供寶貴的洞察資料,瞭解系統在各種負載條件下的行為,並協助您找出需要最佳化的領域。
您可以根據效能測試結果,決定如何最佳化雲端基礎架構和應用程式,以達到最佳效能和可擴充性。這項最佳化作業可能包括調整資源分配、微調設定,或實作快取機制。
舉例來說,如果您發現應用程式在流量高峰期會變慢,可能就需要增加分配給應用程式的虛擬機器或容器數量。或者,您可能需要調整網路伺服器或資料庫的設定,以提升效能。
定期進行效能測試並實作必要的最佳化措施,可確保雲端應用程式和基礎架構始終以最佳效能運作,為使用者提供流暢且反應迅速的體驗。這樣做有助於維持競爭優勢,並贏得顧客信任。
規劃及管理容量
主動規劃未來的容量需求 (包括自然或非自然需求),有助於確保雲端系統順暢運作及擴充性。這項建議與營運準備程度的流程重點領域相關。
規劃未來容量時,請瞭解及管理運算執行個體、儲存空間和 API 要求等各種資源的配額。分析過往的使用模式、成長預測和業務需求後,您就能準確預測未來的容量需求。您可以使用 Cloud Monitoring 和 BigQuery 等工具收集及分析使用資料、找出趨勢,並預測未來的需求。
過往用量模式可提供寶貴的洞察資料,瞭解一段時間內的資源用量。您可以查看 CPU 使用率、記憶體用量和網路流量等指標,找出需求量高的時段和潛在瓶頸。此外,您也可以根據使用者群成長、新產品和功能,以及行銷活動等因素,預估未來的容量需求。評估容量需求時,您也應考量服務層級協議和效能目標等業務需求。
決定工作負載的資源大小時,請考量可能影響資源使用率的因素。季節性變化 (例如節慶購物季或季末特賣) 可能會導致需求暫時暴增。產品上市或行銷活動等預定事件,也可能大幅增加流量。為確保主要和災難復原 (DR) 系統能應付非預期的需求量暴增,請規劃足夠的容量,以便在發生天災和網路攻擊等中斷事件時,支援正常容錯移轉。
自動調度資源是重要的策略,可根據工作負載波動動態調整雲端資源。使用自動調度資源政策,即可根據需求變化自動調度運算執行個體、儲存空間和其他資源。這項功能可確保在尖峰時段達到最佳效能,並在資源用量偏低時盡量減少費用。自動調度演算法會使用 CPU 使用率、記憶體用量和佇列深度等指標,判斷何時要調度資源。
持續監控及最佳化
如要管理及最佳化雲端工作負載,您必須建立程序,持續監控及分析效能指標。這項建議與營運準備就緒的重點領域相關:程序和工具。
如要建立持續監控和分析的程序,請追蹤、收集及評估與雲端環境各個層面相關的資料。您可以運用這項資料主動找出有待改善的地方、提升資源使用效率,並確保雲端基礎架構持續達到或超出您的效能期望。
定期檢查記錄和追蹤記錄,是監控效能的重要環節。記錄檔可提供系統事件、錯誤和警告方面的寶貴深入分析資料。追蹤記錄會提供應用程式中要求流程的詳細資訊。分析記錄和追蹤記錄,有助於找出潛在問題、瞭解問題的根本原因,以及深入瞭解應用程式在不同情況下的行為。服務之間的往返時間等指標,有助於找出並瞭解工作負載中的瓶頸。
此外,您可以使用效能調整技術,大幅提升應用程式回應時間和整體效率。以下列舉幾個可用的技術:
- 快取:將經常存取的資料儲存在記憶體中,減少重複的資料庫查詢或 API 呼叫需求。
- 資料庫最佳化:運用索引和查詢最佳化等技術,提升資料庫作業的效能。
- 程式碼剖析:找出程式碼中耗用過多資源或導致效能問題的區域。
套用這些技巧後,您就能最佳化應用程式,確保應用程式在雲端中有效率地執行。