本頁面由 Cloud Translation API 翻譯而成。

使用 CloudOps 確保營運就緒性和效能

Last reviewed 2024-10-31 UTC

Google Cloud Well-Architected Framework 的卓越營運支柱中，這項原則可協助您確保雲端工作負載的營運準備就緒和效能。這項原則強調要為服務效能建立明確的期望和承諾、實作健全的監控和警報機制、進行效能測試，以及主動規劃容量需求。

原則總覽

不同機構對作業準備就緒的解讀可能不同。營運準備程度是指貴機構為在 Google Cloud上順利運作工作負載所做的準備。如要運作複雜的多層雲端工作負載，必須仔細規劃上線和day-2的作業。這些作業通常稱為「CloudOps」CloudOps。

營運準備就緒的重點領域

營運準備程度包含四個重點領域。每個重點領域都包含一組活動和元件，這些是準備在 Google Cloud中運作複雜應用程式或環境的必要條件。下表列出各個重點領域的元件和活動：

營運準備程度的重點領域	活動和元件
工作團隊	為管理及運作雲端資源的團隊明確劃分角色和職責。確保團隊成員具備適當技能。制定學習計畫。建立明確的團隊結構。聘用所需人才。
程序	觀測能力。管理服務中斷。雲端傳送。核心雲端作業。
工具	支援 CloudOps 程序所需的工具。
管理	服務等級和報表。雲端財務。雲端作業模式。架構審查和管理委員會。雲端架構和法規遵循。

建議

如要使用 CloudOps 確保作業準備度與成效，請參考下列各節的建議。本文中的每項建議都與一或多個作業準備就緒的重點領域相關。

定義服務等級目標和服務水準協議

雲端作業團隊的主要責任是為所有重要工作負載定義服務等級目標 (SLO) 和服務水準協議 (SLA)。這項建議與營運準備狀態的治理重點領域相關。

服務等級目標必須符合 SMART 原則，也就是具體 (Specific)、可衡量 (Measurable)、可達成 (Achievable)、相關 (Relevant) 且有時限 (Time-bound)，並反映您期望的服務和效能水準。

具體：清楚說明所需的服務和效能等級。
可評估：可量化及追蹤。
可達成：在機構能力和資源的限制內可達成。
相關性：符合業務目標和優先事項。
具有時效性：設有明確的評估時間範圍。

舉例來說，網頁應用程式的 SLO 可能為「可用性達 99.9%」或「平均回應時間少於 200 毫秒」。這類 SLO 明確定義了網頁應用程式所需的服務和效能等級，而且可以長期評估及追蹤。

服務水準協議會列出對客戶的服務可用性、效能和支援承諾，包括違規的任何處罰或補救措施。服務等級協議必須包含所提供服務的具體詳細資料、可預期的服務等級、服務供應商和客戶的責任，以及任何違規的處罰或補救措施。服務水準協議是雙方之間的合約協議，可確保雙方清楚瞭解與雲端服務相關的期望和義務。

Google Cloud 提供 Cloud Monitoring 和服務水準指標 (SLI) 等工具，協助您定義及追蹤 SLO。Cloud Monitoring 提供完善的監控和可觀測性功能，協助貴機構收集及分析與雲端應用程式和服務可用性、效能和延遲時間相關的指標。服務水準指標是特定指標，可用來測量及追蹤一段時間內的服務水準目標。善用這些工具，就能有效監控及管理雲端服務，確保服務符合 SLO 和 SLA。

清楚定義並傳達所有重要雲端服務的服務等級目標和服務等級協議，有助於確保部署的應用程式和服務的可靠性和效能。

實作完善的觀測能力

為即時掌握雲端環境的健康狀態和效能，建議您同時使用 Google Cloud Observability 工具和第三方解決方案。這項建議與運作準備程度的下列重點領域相關：程序和工具。

導入多種觀測解決方案，可制定涵蓋雲端基礎架構和應用程式各個層面的全面觀測策略。Google Cloud Observability 是一個整合式平台，可從各種服務、應用程式和外部來源收集、分析及視覺化指標、記錄和追蹤記錄。Google Cloud 透過 Cloud Monitoring，您可以深入瞭解資源用量、效能特徵和整體健康狀態。

為確保全面監控，請監控與系統健康狀態指標一致的重要指標，例如 CPU 使用率、記憶體用量、網路流量、磁碟 I/O 和應用程式回應時間。您也必須考量業務專屬指標。追蹤這些指標有助於找出潛在瓶頸、效能問題和資源限制。此外，您也可以設定快訊，主動通知相關團隊潛在問題或異常狀況。

如要進一步提升監控能力，您可以將第三方解決方案與 Google Cloud Observability 整合。這些解決方案可提供額外功能，例如進階分析、機器學習輔助的異常偵測，以及事件管理功能。結合 Google Cloud Observability 工具和第三方解決方案，即可建立強大且可自訂的監控生態系統，滿足您的特定需求。結合使用這些做法，有助於主動找出並解決問題、提高資源使用效率，以及確保雲端應用程式和服務的整體可靠性和可用性。

實作效能和負載測試

定期執行效能測試，有助於確保雲端應用程式和基礎架構能處理尖峰負載，並維持最佳效能。負載測試會模擬實際的流量模式。壓力測試會將系統推向極限，找出潛在瓶頸和效能限制。這項建議與運作準備程度的下列重點領域相關：程序和工具。

Cloud Load Balancing 和負載測試服務等工具可協助您模擬實際流量模式，並對應用程式進行壓力測試。這些工具可提供寶貴的洞察資料，瞭解系統在各種負載條件下的行為，並協助您找出需要最佳化的區域。

您可以根據效能測試結果，決定如何最佳化雲端基礎架構和應用程式，以達到最佳效能和可擴充性。這項最佳化作業可能包括調整資源分配、微調設定，或實作快取機制。

舉例來說，如果您發現應用程式在流量高峰期會變慢，可能就需要增加分配給應用程式的虛擬機器或容器數量。或者，您可能需要調整網路伺服器或資料庫的設定，以提升效能。

定期進行效能測試並實作必要的最佳化措施，可確保雲端應用程式和基礎架構始終以最佳效能運作，為使用者提供流暢且反應迅速的體驗。這樣做有助於維持競爭優勢，並贏得顧客信任。

規劃及管理容量

主動規劃未來的容量需求 (包括自然或非自然需求)，有助於確保雲端系統順暢運作及擴充性。這項建議與營運準備程度的流程重點領域相關。

規劃未來容量時，請瞭解及管理運算執行個體、儲存空間和 API 要求等各種資源的配額。分析過往的使用模式、成長預測和業務需求後，您就能準確預測未來的容量需求。您可以使用 Cloud Monitoring 和 BigQuery 等工具收集及分析用量資料、找出趨勢，並預測未來需求。

過往用量模式可提供寶貴的洞察資料，瞭解一段時間內的資源用量。您可以查看 CPU 使用率、記憶體用量和網路流量等指標，找出需求量高的時段和潛在瓶頸。此外，您也可以根據使用者群成長、新產品和功能，以及行銷活動等因素，預估未來的容量需求。評估容量需求時，您也應考量服務層級協議和效能目標等業務需求。

決定工作負載的資源大小時，請考量可能影響資源使用率的因素。季節性變化 (例如節慶購物季或季末銷售) 可能會導致需求暫時暴增。產品上市或行銷活動等預定事件，也可能大幅增加流量。為確保主要和災難復原 (DR) 系統能應付非預期的需求量暴增，請規劃足夠的容量，以便在發生天災和網路攻擊等中斷事件時，支援正常容錯移轉。

自動調度資源是重要的策略，可根據工作負載波動動態調整雲端資源。使用自動調度資源政策，即可根據需求變化自動調度運算執行個體、儲存空間和其他資源。這項功能可確保在尖峰時段達到最佳效能，並在資源用量偏低時盡量減少費用。自動調度演算法會使用 CPU 使用率、記憶體用量和佇列深度等指標，判斷何時要調度資源。

持續監控及最佳化

如要管理及最佳化雲端工作負載，您必須建立程序，持續監控及分析效能指標。這項建議與營運準備就緒的重點領域相關：程序和工具。

如要建立持續監控和分析的程序，請追蹤、收集及評估與雲端環境各個層面相關的資料。您可以運用這項資料主動找出有待改善的地方、提升資源使用效率，並確保雲端基礎架構持續達到或超出您的效能期望。

定期檢查記錄和追蹤記錄，是監控效能的重要環節。記錄檔可提供系統事件、錯誤和警告方面的寶貴深入分析資料。追蹤記錄會提供應用程式中要求流程的詳細資訊。分析記錄和追蹤記錄，找出潛在問題、問題的根本原因，並進一步瞭解應用程式在不同情況下的行為。服務之間的往返時間等指標，有助於找出並瞭解工作負載中的瓶頸。

此外，您可以使用效能調整技術，大幅提升應用程式回應時間和整體效率。以下列舉幾個可用的技術：

快取：將經常存取的資料儲存在記憶體中，減少重複的資料庫查詢或 API 呼叫。
資料庫最佳化：運用索引和查詢最佳化等技術，提升資料庫作業的效能。
程式碼剖析：找出程式碼中耗用過多資源或導致效能問題的區域。

運用這些技巧，即可最佳化應用程式，確保應用程式在雲端中有效率地執行。

總覽

管理事件和問題