Google Cloud Well-Architected Framework 的卓越營運支柱提供相關建議,協助您在 Google Cloud上有效率地運作工作負載。雲端作業卓越性是指設計、導入及管理雲端解決方案,以提供價值、效能、安全性和可靠性。這個支柱中的最佳化建議可協助您持續改善及調整工作負載,以因應雲端環境中不斷變化的需求。
營運卓越支柱適用於下列目標對象:
- 經理和領導者:建立及維持雲端卓越營運的架構,確保雲端投資能帶來價值並支援業務目標。
- 雲端作業團隊:提供事件和問題管理、容量規劃、效能最佳化和變更管理指引。
- 網站可靠性工程師 (SRE):協助您達到高服務可靠性的最佳做法,包括監控、事件回應和自動化。
- 雲端架構師和工程師:設計和導入階段的作業需求和最佳做法,確保解決方案的設計能兼顧作業效率和擴充性。
- 開發運作團隊:自動化、持續整合/持續推送軟體更新管道和變更管理方面的指引,協助您更快且更可靠地推送軟體更新。
如要實現卓越營運,您應採用自動化、協調和以資料為準的洞察資料。自動化有助於減少手動作業。此外,這項功能還能簡化重複性工作,並建立相關的防護措施。自動化調度管理有助於協調複雜的程序。資料導向洞察可協助您根據證據做出決策。運用這些做法,即可最佳化雲端作業、降低成本、提升服務可用性,以及加強安全性。
雲端營運卓越不僅僅是雲端營運的技術能力,包括鼓勵持續學習和實驗的文化轉變。團隊必須有權創新、疊代,並採用成長型思維。卓越營運文化可促進協作環境,鼓勵個人分享想法、挑戰假設,並推動改善。
如要瞭解 AI 和機器學習工作負載的卓越營運原則和建議,請參閱 Well-Architected Framework 中的「AI 和機器學習觀點:卓越營運」。
核心原則
架構完善架構的卓越營運支柱建議,對應至下列核心原則:
- 運用 CloudOps 確保作業準備就緒和效能: 定義服務等級目標 (SLO),並執行全面監控、效能測試和容量規劃,確保雲端解決方案符合作業和效能要求。
- 管理事件和問題: 透過全面監控、明確的事件應變程序、詳盡的回顧檢討和預防措施,盡量降低雲端事件的影響,並防止再次發生。
- 管理及最佳化雲端資源: 透過適當調整大小、自動調整規模等策略,以及使用有效的成本監控工具,最佳化及管理雲端資源。
- 自動化及管理變更: 自動化程序、簡化變更管理,並減輕手動作業的負擔。
- 持續改良及創新: 專注於持續改善及推出新解決方案,以維持競爭力。
貢獻者
作者:
- Ryan Cox | 首席架構師
- Hadrian Knotz | 企業架構師
其他貢獻者:
- Daniel Lees | 雲端安全架構師
- Filipe Gracio 博士 | 客戶工程師
- Gary Harmson | 首席架構師
- Jose Andrade | 企業基礎架構客戶工程師
- Kumar Dhanagopal | 跨產品解決方案開發人員
- Nicolas Pintaux | 客戶工程師、應用程式現代化專家
- Radhika Kanakam | Cloud GTM 資深專案經理
- Samantha He | 技術文件撰稿者
- Zach Seils | 網路專員
- Wade Holmes | 全球解決方案總監
使用 CloudOps 確保作業準備就緒和效能
Google Cloud Well-Architected Framework 的卓越營運支柱包含這項原則,可協助您確保雲端工作負載的營運準備就緒和效能。這項原則強調要明確訂定服務效能的預期成果和承諾、實作健全的監控和警報機制、進行效能測試,以及主動規劃容量需求。
原則總覽
不同機構對作業準備就緒的解讀可能不同。 作業準備程度是指貴機構為在 Google Cloud上順利運作工作負載所做的準備。如要準備運作複雜的多層雲端工作負載,必須仔細規劃上線和day-2的作業。這些作業通常稱為「CloudOps」CloudOps。
營運準備就緒的重點領域
營運準備狀態包含四個重點領域。每個重點領域都包含一組活動和元件,這些是準備在 Google Cloud中操作複雜應用程式或環境時的必要條件。下表列出各個重點領域的元件和活動:
營運準備就緒的重點領域 | 活動和元件 |
---|---|
工作團隊 |
|
程序 |
|
工具 | 支援 CloudOps 程序所需的工具。 |
管理 |
|
建議
如要確保使用 CloudOps 服務時的運作準備情況和效能,請參考下列各節的建議。本文中的每項建議都與一或多個作業準備就緒的重點領域相關。
定義服務等級目標和服務水準協議
雲端作業團隊的核心責任是為所有重要工作負載定義服務等級目標 (SLO) 和服務水準協議 (SLA)。這項建議與營運準備狀態的治理重點領域相關。
服務等級目標必須符合 SMART 原則,也就是具體 (Specific)、可衡量 (Measurable)、可達成 (Achievable)、相關 (Relevant) 且有時限 (Time-bound),並反映您期望的服務和效能水準。
- 具體:清楚說明所需的服務和效能等級。
- 可評估:可量化及追蹤。
- 可達成:在貴機構的能力和資源限制內可達成。
- 相關性:符合業務目標和優先事項。
- 具有時效性:設有明確的評估時間範圍。
舉例來說,網頁應用程式的 SLO 可能為「可用性達 99.9%」或「平均回應時間少於 200 毫秒」。這類服務等級目標可明確定義網頁應用程式所需的服務和效能等級,且可隨時間測量及追蹤。
服務水準協議會列出對客戶的服務可用性、效能和支援承諾,包括違規的任何處罰或補救措施。服務等級協議必須包含所提供服務的具體詳細資料、可預期的服務等級、服務供應商和客戶的責任,以及任何違規的處罰或補救措施。服務水準協議是雙方的合約協議,可確保雙方清楚瞭解與雲端服務相關的期望和義務。
Google Cloud 提供 Cloud Monitoring 和服務水準指標 (SLI) 等工具,協助您定義及追蹤 SLO。Cloud Monitoring 提供完善的監控和可觀測性功能,協助貴機構收集及分析與雲端應用程式和服務可用性、效能和延遲時間相關的指標。服務水準指標是特定指標,可用來測量及追蹤一段時間內的服務水準目標。善用這些工具,就能有效監控及管理雲端服務,確保服務符合 SLO 和 SLA。
清楚定義並傳達所有重要雲端服務的服務等級目標和服務等級協議,有助於確保部署的應用程式和服務的可靠性和效能。
實作完善的觀測能力
為即時掌握雲端環境的健康狀態和效能,建議您同時使用 Google Cloud Observability 工具 和第三方解決方案。這項建議與運作準備程度的下列重點領域相關:程序和工具。
導入多種觀測解決方案,可制定涵蓋雲端基礎架構和應用程式各個層面的全面觀測策略。Google Cloud Observability 是一個整合式平台,可從各種服務、應用程式和外部來源收集、分析及視覺化指標、記錄和追蹤記錄。Google Cloud 透過 Cloud Monitoring,您可以深入瞭解資源用量、效能特徵和整體健康狀態。
為確保全面監控,請監控與系統健康狀態指標一致的重要指標,例如 CPU 使用率、記憶體用量、網路流量、磁碟 I/O 和應用程式回應時間。您也必須考量業務專屬指標。追蹤這些指標有助於找出潛在瓶頸、效能問題和資源限制。此外,您也可以設定快訊,主動通知相關團隊潛在問題或異常狀況。
如要進一步強化監控功能,您可以將第三方解決方案與 Google Cloud Observability 整合。這些解決方案可提供額外功能,例如進階分析、機器學習輔助的異常偵測,以及事件管理功能。結合 Google Cloud Observability 工具和第三方解決方案,即可建立強大且可自訂的監控生態系統,滿足您的特定需求。透過這種組合式做法,您可以主動找出並解決問題、最佳化資源使用情形,以及確保雲端應用程式和服務的整體可靠性和可用性。
實作效能和負載測試
定期執行效能測試,有助於確保雲端應用程式和基礎架構能處理尖峰負載,並維持最佳效能。負載測試會模擬實際的流量模式。壓力測試會將系統推向極限,找出潛在的瓶頸和效能限制。這項建議與運作準備程度的下列重點領域相關:程序和工具。
Cloud Load Balancing 和負載測試服務等工具可協助您模擬實際流量模式,並對應用程式進行壓力測試。這些工具可提供寶貴的洞察資料,瞭解系統在各種負載條件下的行為,並協助您找出需要最佳化的領域。
您可以根據效能測試結果,決定如何最佳化雲端基礎架構和應用程式,以達到最佳效能和可擴充性。這項最佳化作業可能包括調整資源分配、微調設定,或實作快取機制。
舉例來說,如果您發現應用程式在流量高峰期會變慢,可能就需要增加分配給應用程式的虛擬機器或容器數量。或者,您可能需要調整網路伺服器或資料庫的設定,以提升效能。
定期進行效能測試並實作必要的最佳化措施,可確保雲端應用程式和基礎架構始終以最佳效能運作,為使用者提供流暢且反應迅速的體驗。這樣做有助於維持競爭優勢,並贏得顧客信任。
規劃及管理容量
主動規劃未來的容量需求 (包括自然或非自然需求),有助於確保雲端系統順暢運作及擴充性。這項建議與營運準備程度的流程重點領域相關。
規劃未來容量時,請瞭解及管理運算執行個體、儲存空間和 API 要求等各種資源的配額。分析過往的使用模式、成長預測和業務需求後,您就能準確預測未來的容量需求。您可以使用 Cloud Monitoring 和 BigQuery 等工具收集及分析使用資料、找出趨勢,並預測未來的需求。
過往用量模式可提供寶貴的洞察資料,瞭解一段時間內的資源用量。您可以查看 CPU 使用率、記憶體用量和網路流量等指標,找出需求量高的時段和潛在瓶頸。此外,您也可以根據使用者群成長、新產品和功能,以及行銷活動等因素,預估未來的容量需求。評估容量需求時,您也應考量服務層級協議和效能目標等業務需求。
決定工作負載的資源大小時,請考量可能影響資源使用率的因素。季節性變化 (例如節慶購物季或季末特賣) 可能會導致需求暫時暴增。產品上市或行銷活動等預定事件,也可能大幅增加流量。為確保主要和災難復原 (DR) 系統能應付非預期的需求量暴增,請規劃足夠的容量,以便在發生天災和網路攻擊等中斷事件時,支援正常容錯移轉。
自動調度資源是重要的策略,可根據工作負載波動動態調整雲端資源。使用自動調度資源政策,即可根據需求變化自動調度運算執行個體、儲存空間和其他資源。這項功能可確保在尖峰時段達到最佳效能,並在資源用量偏低時盡量減少費用。自動調度演算法會使用 CPU 使用率、記憶體用量和佇列深度等指標,判斷何時要調度資源。
持續監控及最佳化
如要管理及最佳化雲端工作負載,您必須建立程序,持續監控及分析效能指標。這項建議與營運準備就緒的重點領域相關:程序和工具。
如要建立持續監控和分析的程序,請追蹤、收集及評估與雲端環境各個層面相關的資料。您可以運用這項資料主動找出有待改善的地方、提升資源使用效率,並確保雲端基礎架構持續達到或超出您的效能期望。
定期檢查記錄和追蹤記錄,是監控效能的重要環節。記錄檔可提供系統事件、錯誤和警告方面的寶貴深入分析資料。追蹤記錄會提供應用程式中要求流程的詳細資訊。分析記錄和追蹤記錄,有助於找出潛在問題、瞭解問題的根本原因,以及深入瞭解應用程式在不同情況下的行為。服務之間的往返時間等指標,有助於找出並瞭解工作負載中的瓶頸。
此外,您可以使用效能調整技術,大幅提升應用程式回應時間和整體效率。以下列舉幾個可用的技術:
- 快取:將經常存取的資料儲存在記憶體中,減少重複的資料庫查詢或 API 呼叫需求。
- 資料庫最佳化:運用索引和查詢最佳化等技術,提升資料庫作業的效能。
- 程式碼剖析:找出程式碼中耗用過多資源或導致效能問題的區域。
套用這些技巧後,您就能最佳化應用程式,確保應用程式在雲端中有效率地執行。
管理事件和問題
Google Cloud 架構完善架構的卓越營運支柱中,這項原則提供相關建議,協助您管理雲端工作負載的事件和問題。包括實施全方位的監控和可觀測性、建立明確的事件應變程序、進行徹底的根本原因分析,以及實施預防措施。本原則中討論的許多主題,在「可靠性」支柱中都有詳細說明。
原則總覽
事件管理和問題管理是功能性作業環境的重要元件。您如何因應、分類及解決不同嚴重程度的事件,會大幅影響作業模式。您也必須主動持續進行調整,以提升可靠性和效能。事件和問題管理流程是否有效率,取決於下列基本要素:
- 持續監控:快速找出並解決問題。
- 自動化:簡化工作流程並提升效率。
- 協調:有效協調及管理雲端資源。
- 資料驅動的洞察資訊:最佳化雲端作業並做出明智決策。
這些元素可協助您建構彈性雲端環境,因應各種挑戰和中斷情況。這些要素也有助於降低代價高昂的事件和停機風險,並協助您提高業務靈活度和成就。這些基礎元素分布在作業準備就緒的四個重點領域:員工、流程、工具和管理。
建議
如要有效管理事件和問題,請參考下列各節的建議。本文中的每項建議都與一或多個營運準備就緒的重點領域相關。
建立明確的事件應變程序
明確劃分角色和職責,是確保有效且協調一致地回應事件的必要條件。此外,明確的通訊協定和升級路徑有助於確保在事件期間及時有效地分享資訊。這項建議與營運準備就緒的重點領域相關:員工、程序和工具。
如要建立事件應變程序,您必須定義每個團隊成員的角色和期望,例如事件指揮官、調查人員、溝通人員和技術專家。建立溝通和提報路徑包括找出重要聯絡人、設定溝通管道,以及定義必要時將事件提報給更高層級管理人員的程序。定期訓練和準備有助於確保團隊具備應對事件的知識和技能,能有效應變。
在執行手冊或應變手冊中記錄事件應變程序,可為團隊提供標準化的參考指南,以便在事件發生時遵循。這份手冊必須列出事件回應流程各階段應採取的步驟,包括通訊、分類、調查和解決。此外,也必須包含相關工具和資源的資訊,以及重要人員的聯絡資訊。您必須定期檢查及更新執行手冊,確保手冊內容符合現況且有效。
集中管理事件
如要有效追蹤及管理整個事件生命週期,建議使用集中式事件管理系統。這項建議與運作準備程度的這些重點領域相關:程序和工具。
集中式事件管理系統具有下列優點:
- 提升能見度:將所有事件相關資料集中在單一位置,團隊就不必在各種管道或系統中搜尋背景資訊。這種做法可節省時間、減少混淆,並讓利害關係人全面瞭解事件,包括事件狀態、影響和進度。
- 提升協調與協作效率:集中式系統提供統一的通訊和工作管理平台,有助於參與事件應變的不同部門和職能之間,進行無縫協作。確保所有人都可存取最新資訊,並降低溝通不良和意見不合的風險。
- 提升問責和擁有權:集中式事件管理系統可讓機構將工作分配給特定個人或團隊,確保責任明確定義及追蹤。這種做法可促進責任感,並鼓勵主動解決問題,因為團隊成員可以輕鬆監控自己的進度和貢獻。
集中式事件管理系統必須提供強大的功能,以便追蹤事件、指派工作及管理通訊。這些功能可讓您自訂工作流程、設定優先順序,以及與其他系統整合,例如監控工具和票證系統。
導入集中式事件管理系統後,即可改善組織的事件應變程序、提升協作效率,並充分掌握各種情況。這樣做可縮短事件解決時間、減少停機時間,並提升顧客滿意度。此外,您也可以從過去的事件中學習,找出需要改進的地方,進而培養持續改善的文化。
徹底進行事件後檢討
事件發生後,您必須進行詳細的事件後檢討 (PIR),又稱事後檢討,找出根本原因、促成因素和學到的經驗。這項全面審查有助於您防範日後發生類似事件。這項建議與運作準備程度的下列重點領域相關:程序和管理。
PIR 程序必須由跨領域團隊執行,團隊成員須具備事件各方面的專業知識。團隊必須透過訪談、文件審查和現場檢查,收集所有相關資訊。必須建立事件時間軸,以確立導致事件發生的動作順序。
團隊收集必要資訊後,必須進行根本原因分析,找出導致事件發生的因素。這項分析必須找出直接原因,以及導致事件發生的系統性問題。
除了找出根本原因,PIR 團隊也必須找出可能導致事件的其他因素。這些因素可能包括人為錯誤、設備故障,或組織因素 (例如溝通中斷和缺乏訓練)。
PIR 報告必須記錄調查結果,包括事件時間表、根本原因分析和建議採取的行動。這份報告是實施矯正措施和防止再次發生的寶貴資源。這份報告必須與所有相關利害關係人分享,並用於制定安全訓練和程序。
為確保 PIR 程序順利進行,貴機構必須培養不究責的文化,著重於學習和改善,而非指責。這種文化可鼓勵個人回報事件,而不必擔心遭到報復,同時也能協助您解決系統性問題,並做出有意義的改善。
徹底執行 PIR,並根據調查結果採取矯正措施,可大幅降低日後發生類似事件的風險。這種主動調查和預防事件的方法,有助於為所有相關人員打造更安全有效率的工作環境。
維護知識庫
已知問題、解決方案和疑難排解指南的知識庫,對於事件管理和解決至關重要。團隊成員可以利用知識庫快速找出並解決常見問題。導入知識庫有助於減少升級需求,並提升整體效率。這項建議與以下營運準備就緒的重點領域相關:員工和流程。
知識庫的主要優點在於,團隊可以從過去的經驗中學習,避免重蹈覆轍。擷取並分享已知問題的解決方法,有助於團隊共同瞭解如何解決常見問題,以及事件管理的最佳做法。使用知識庫可節省時間和精力,並有助於將程序標準化,確保事件解決方式一致。
知識庫不僅有助於縮短事件解決時間,還能促進團隊間的知識分享與協作。有了集中式資訊存放區,團隊就能輕鬆存取知識庫並提供內容,進而推動持續學習和改善的文化。這種文化鼓勵團隊分享專業知識和經驗,進而建立更全面且有價值的知識庫。
如要有效建立及管理知識庫,請使用適當的工具和技術。Google Workspace 等協作平台非常適合用於此目的,因為您可以在這些平台上輕鬆建立、編輯及共用文件,與他人協同作業。這些工具也支援版本控管和變更追蹤,確保知識庫維持最新狀態和準確性。
讓所有相關團隊都能輕鬆存取知識庫。如要達成這個目標,您可以將知識庫與現有的事件管理系統整合,或是提供專屬入口網站或內部網路網站。知識庫隨時可用,團隊可快速存取所需資訊,有效率地解決事件。這項可用性有助於減少停機時間,並盡量降低對業務營運的影響。
定期檢查並更新知識庫,確保內容實用且符合需求。監控事件報告、找出常見問題和趨勢,並將新的解決方案和疑難排解指南納入知識庫。最新的知識庫可協助團隊更快速有效地解決事件。
自動化事件回應
自動化有助於簡化事件應變和補救程序。可協助您迅速有效地解決安全漏洞和系統故障問題。使用 Google Cloud Cloud Run functions 或 Cloud Run 等產品,即可自動執行通常需要手動操作且耗時的各種工作。這項建議與運作準備程度的下列重點領域相關:程序和工具。
自動事件回應功能有下列優點:
- 縮短事件偵測和解決時間:自動化工具可持續監控系統和應用程式、即時偵測可疑或異常活動,並通知利害關係人或在不需介入的情況下做出回應。這項自動化功能可協助您找出潛在威脅或問題,避免情況加劇。偵測到事件時,自動化工具可以觸發預先定義的補救措施,例如隔離受影響的系統、隔離惡意檔案,或還原變更,將系統恢復到已知良好的狀態。
- 減輕資安和營運團隊的負擔:自動化事件回應功能可讓資安和營運團隊專注於更具策略性的工作。透過自動執行例行和重複性工作 (例如收集診斷資訊或觸發警示),貴機構可以讓人員騰出時間處理更複雜和重要的事件。這項自動化功能可提升整體事件應變的效率和成效。
- 提升補救程序的一致性和準確度: 自動化工具可確保補救措施統一套用至所有受影響的系統,盡量減少人為錯誤或不一致的風險。這項標準化補救程序有助於盡量減少事件對使用者和業務的影響。
管理及最佳化雲端資源
Google Cloud Well-Architected Framework 的卓越營運支柱包含這項原則,可提供相關建議,協助您管理及最佳化雲端工作負載使用的資源。包括根據實際用量和需求將資源調整為最適規模、使用自動調度資源功能動態分配資源、採用成本最佳化策略,以及定期檢查資源用量和成本。本原則討論的許多主題,在成本最佳化支柱中都有詳細說明。
原則總覽
雲端資源管理和最佳化是提升雲端支出、資源用量和基礎架構效率的關鍵。包括各種策略和最佳做法,旨在盡量提高雲端支出的價值和報酬率。
這個支柱的重點不只是降低成本,還包括最佳化。並著重於下列目標:
- 效率:運用自動化和資料分析功能,爭取最佳成效並節省費用。
- 效能: 輕鬆調度資源,因應不斷變化的需求,並提供最佳結果。
- 擴充性:調整基礎架構和程序,以因應快速成長和各種工作負載。
專注於這些目標,即可在成本與功能之間取得平衡。您可以根據這些資訊,做出資源佈建、擴充和遷移的明智決策。此外,您還可深入瞭解資源耗用模式,主動找出並解決潛在問題,避免問題擴大。
建議
如要管理及最佳化調整資源,請參考下列各節的建議。本文中的每項建議都與一或多個作業準備就緒的重點領域相關。
選擇適當的資源規模
持續監控資源用量並調整資源分配,以符合實際需求,是有效管理雲端資源的必要做法。資源過度佈建會導致不必要的費用,而資源佈建不足則會造成效能瓶頸,進而影響應用程式效能和使用者體驗。如要達到最佳平衡,您必須主動調整雲端資源大小。這項建議與營運準備狀態的治理重點領域相關。
Cloud Monitoring 和 Recommender 可協助您找出適當調整大小的機會。Cloud Monitoring 可即時顯示資源用量指標。這項資訊可協助您追蹤資源用量模式,並找出潛在的效率不彰問題。Recommender 會分析資源使用率資料,並提供智慧建議,協助您最佳化資源分配。使用這些工具,您可以深入瞭解資源用量,並根據這些資訊做出明智決策,適當調整資源大小。
除了 Cloud Monitoring 和 Recommender 之外,您也可以考慮使用自訂指標來觸發自動調整大小動作。自訂指標可讓您追蹤與應用程式和工作負載相關的特定資源使用率指標。您也可以設定快訊,在達到預先定義的門檻時通知管理員。管理員隨後即可採取必要行動,調整資源分配。這種主動式做法可確保資源及時擴充,有助於節省雲端成本並避免效能問題。
使用自動調度資源功能
自動調整運算和其他資源,有助於確保雲端應用程式發揮最佳效能,並提高成本效益。自動調度資源功能可根據工作負載波動情況動態調整資源容量,讓您在需要時取得所需資源,避免過度佈建和不必要的費用。這項建議與營運準備程度的流程重點領域相關。
為滿足不同應用程式和工作負載的多樣化需求,Google Cloud 提供各種自動調整資源配置選項,包括:
- Compute Engine 代管執行個體群組 (MIG) 是以單一實體形式管理及擴充的 VM 群組。使用 MIG 時,您可以定義自動調度資源政策,指定要在群組中維護的 VM 數量下限和上限,以及觸發自動調度資源的條件。舉例來說,您可以設定政策,在 CPU 使用率達到特定門檻時,於 MIG 中新增 VM,並在 CPU 使用率低於其他門檻時移除 VM。
Google Kubernetes Engine (GKE) 自動調度資源會動態調整叢集資源,以符合應用程式需求。提供下列工具:
- 叢集自動調度器會根據 Pod 資源需求新增或移除節點。
- 水平 Pod 自動調度器會根據 CPU、記憶體或自訂指標,變更 Pod 副本數量。
- 垂直 Pod 自動調度器會根據用量模式,微調 Pod 資源要求和限制。
- 節點自動佈建功能會自動為工作負載建立最佳化的節點集區。
這些工具可共同發揮作用,盡量提高資源使用率、確保應用程式效能,並簡化叢集管理作業。
Cloud Run 是無伺服器平台,可讓您執行程式碼,不必管理基礎架構。Cloud Run 提供內建的自動調度資源功能,可根據傳入流量自動調整執行個體數量。當流量增加時,Cloud Run 會調高執行個體數量來處理負載。流量減少時,Cloud Run 會縮減執行個體數量,以降低費用。
使用這些自動調度資源選項,可確保雲端應用程式有足夠的資源來處理各種工作負載,同時避免過度佈建和不必要的費用。使用自動調度資源功能可提升效能、節省成本,並更有效率地運用雲端資源。
運用費用最佳化策略
最佳化雲端支出有助於有效管理貴機構的 IT 預算。這項建議與營運準備狀態的治理重點領域相關。
Google Cloud 提供多種工具和技術,協助您最佳化雲端費用。善用這些工具和技術,就能以最划算的價格使用雲端服務。這些工具和技術可協助您找出可降低成本的領域,例如找出未充分利用的資源,或建議更具成本效益的執行個體類型。 Google Cloud 以下是可協助您提高雲端成本效益的選項:
- 承諾使用折扣 (CUD): 只要承諾在一段時間內達到一定的用量,即可享有折扣。
- Compute Engine 的續用折扣可為服務的持續使用提供折扣。
- Spot VM 可存取未使用的 VM 容量,價格比一般 VM 低。
定價模式可能會隨時間變更,且可能會推出新功能,與現有選項相比,新功能可提供更優異的成效或更低的成本。因此,建議您定期查看計價模式,並考慮使用替代功能。掌握最新計費模式和功能,有助於您根據這些資訊做出明智的雲端架構決策,盡量減少支出。
Google Cloud的成本管理工具 (例如預算和快訊) 可提供雲端支出方面的寶貴洞察資料。使用者可以透過預算和快訊設定預算,並在預算超支時收到快訊。這些工具可協助使用者追蹤雲端支出,並找出可降低成本的領域。
追蹤資源用量和費用
您可以使用標記和標籤來追蹤資源用量和費用。將標記和標籤指派給專案、部門或其他相關維度等雲端資源,即可分類及整理資源。您可以藉此監控及分析特定資源的支出模式,找出用量偏高的區域或潛在的節省成本機會。這項建議與運作準備程度的這些重點領域相關:控管和工具。
Cloud Billing 和 Cost Management 等工具可協助您全面瞭解支出模式。這些工具可提供雲端用量的詳細洞察資料,協助您找出趨勢、預估費用及制定明智決策。分析歷來資料和目前的支出模式,找出可節省費用的重點領域。
自訂資訊主頁和報表可協助您以視覺化方式呈現費用資料,並深入瞭解支出趨勢。您可以自訂資訊主頁,加入相關指標和維度,監控主要成效指標 (KPI),並追蹤成本最佳化目標的達成進度。報表則提供更深入的費用資料分析。您可以依特定時間範圍或資源類型篩選報表資料,瞭解導致雲端支出增加的根本原因。
請定期檢查並更新標記、標籤和費用分析工具,確保您掌握雲端用量和費用的最新資訊。隨時掌握最新資訊,並進行費用事後檢討或主動費用審查,有助於您及時發現任何支出意外增加的情況。這麼做可讓您主動做出決策,以最佳化雲端資源並控管成本。
建立費用分配和預算機制
雲端成本管理中的問責制和透明度,對於提高資源使用率及確保財務控管至關重要。這項建議與營運準備狀態的治理重點領域相關。
為確保責任歸屬和透明度,您需要有明確的成本分配和退款機制。將費用分配給特定團隊、專案或個人後,貴機構就能確保這些實體各自負責雲端用量。這項做法可培養擁有權意識,並鼓勵負責任的資源管理。此外,退款機制可協助貴機構向內部客戶收回雲端費用、根據成效調整獎勵,以及促進財政紀律。
為不同團隊或專案設定預算,也是雲端費用管理的重要環節。貴機構可透過預算定義支出上限,並追蹤實際支出是否超出上限。這種做法可讓您主動做出決策,避免支出失控。設定切實可行的預算,確保雲端資源能有效運用,並符合業務目標。定期監控實際支出與預算的差異,有助於找出差異並及時處理潛在的超支問題。
如要監控預算,可以使用 Cloud Billing 預算和快訊等工具。這些工具可即時深入分析雲端支出,並在可能超出預算時通知利害關係人。使用這些功能,您就能追蹤雲端成本,並在發生重大偏差前採取修正措施。這種主動出擊的做法有助於避免財務意外,並確保雲端資源得到妥善運用。
自動化及管理變更
Google Cloud 架構完善架構的卓越營運支柱中,這項原則提供相關建議,協助您自動化及管理雲端工作負載的變更。包括實作基礎架構即程式碼 (IaC)、建立標準作業程序、實作結構化變更管理程序,以及使用自動化和協調程序。
原則總覽
變更管理和自動化在確保雲端環境內順利且受控的轉換過程中,扮演至關重要的角色。如要有效管理變更,您必須採用策略和最佳做法,盡量減少中斷,並確保變更與現有系統順暢整合。
有效的變更管理和自動化作業包含下列基本要素:
- 變更控管:制定明確的變更管理政策和程序,包括核准程序和溝通計畫。
- 風險評估:找出與變更相關的潛在風險,並透過風險管理技術降低風險。
- 測試與驗證:徹底測試變更,確保符合功能和效能需求,並降低潛在的迴歸問題。
- 控管部署作業:以控管方式實作變更,確保使用者順利轉換至新環境,並提供機制,以便在必要時順利復原。
這些基本要素有助於減少變更的影響,並確保變更對業務營運產生正面影響。這些元素代表程序、工具和管理,是營運準備就緒的重點領域。
建議
如要自動執行及管理變更,請參考下列各節的建議。本文中的每項建議都與一或多個營運準備就緒的重點領域相關。
採用 IaC
基礎架構即程式碼 (IaC) 是管理雲端基礎架構的變革性方法。您可以使用 Terraform 等工具,以宣告方式定義及管理雲端基礎架構。IaC 可協助您實現一致性、可重複性,並簡化變更管理作業。同時還能加快部署速度,並提升穩定性。這項建議與運作準備就緒的重點領域相關:程序和工具。
為雲端部署作業採用 IaC 方法的主要優點如下:
- 使用者可讀取的資源設定:採用 IaC 方法時,您可以宣告使用者可讀取的雲端基礎架構資源格式,例如 JSON 或 YAML。基礎架構管理員和作業人員可以輕鬆瞭解及修改基礎架構,並與他人協作。
- 一致性和可重複性:IaC 可確保基礎架構部署作業的一致性和可重複性。無論是誰執行部署作業,您都能確保每次佈建及設定基礎架構的方式都相同。這種做法有助於減少錯誤,並確保基礎架構一律處於已知狀態。
- 責任歸屬和簡化疑難排解:IaC 方法有助於改善責任歸屬,並簡化問題排解程序。將 IaC 程式碼儲存在版本控管系統中,即可追蹤變更,並找出變更時間和變更者。如有需要,您可以輕鬆復原至先前的版本。
導入版本管控機制
Git 等版本控制系統是 IaC 程序的關鍵元件。這項技術提供強大的變更管理和風險降低功能,因此廣受採用,無論是透過內部開發或 SaaS 解決方案皆可使用。這項建議與營運準備就緒的重點領域相關:控管和工具。
透過追蹤 IaC 程式碼和設定的變更,版本控管可提供程式碼演變的能見度,讓您更容易瞭解變更的影響,並找出潛在問題。這項強化功能可讓處理相同 IaC 專案的團隊成員更清楚瞭解情況,進而促進彼此合作。
大多數版本控制系統都能讓您輕鬆復原變更。這項功能有助於降低非預期後果或錯誤的風險。在 IaC 工作流程中使用 Git 等工具,可大幅改善變更管理程序、促進協作及降低風險,進而提高 IaC 實作效率和可靠性。
建構 CI/CD 管道
持續整合和持續推送軟體更新 (CI/CD) 管道可簡化雲端應用程式的開發和部署程序。CI/CD 管道會自動執行建構、測試和部署階段,因此能以更快的速度和更高的頻率發布軟體,同時提升品質控管。這項建議與營運準備狀態的工具重點領域相關。
CI/CD 管道可確保程式碼變更持續整合至中央存放區,通常是 Git 等版本管控系統。持續整合有助於及早偵測及解決問題,並降低發生錯誤或相容性問題的可能性。
如要為雲端應用程式建立及管理 CI/CD 管道,可以使用 Cloud Build 和 Cloud Deploy 等工具。
- Cloud Build 是一項全代管的建構服務,可讓開發人員以宣告式方式定義及執行建構步驟。可與熱門原始碼管理平台無縫整合,並由程式碼推送和提取要求等事件觸發。
- Cloud Deploy 是一項無伺服器部署服務,可自動將應用程式部署到各種環境,例如測試、試行和實際工作環境。這項服務提供藍綠部署、流量拆分和復原功能,方便您管理及監控應用程式部署作業。
整合 CI/CD pipeline 與版本控管系統和測試架構,有助於確保雲端應用程式的品質和可靠性。在 CI/CD 程序中執行自動化測試,開發團隊就能在程式碼部署至正式版環境前,快速找出並修正任何問題。這項整合有助於提升雲端應用程式的整體穩定性和效能。
使用設定管理工具
Puppet、Chef、Ansible 和 VM Manager 等工具可協助您自動設定及管理雲端資源。使用這些工具,即可確保雲端環境中的資源一致性與法規遵循。這項建議與營運準備程度的工具相關。
自動設定及管理雲端資源可帶來下列好處:
- 大幅降低人為錯誤的風險:如果涉及手動程序,人為錯誤導致失誤的機率較高。設定管理工具可自動執行程序,確保所有雲端資源都套用一致且正確的設定,進而降低這類風險。這項自動化作業可提升雲端環境的可靠性和穩定性。
- 提升作業效率:將重複性工作自動化,讓 IT 人員能專心處理更具策略價值的計畫。這項自動化功能可提高工作效率、節省成本,並改善因應不斷變化的業務需求時的反應速度。
- 簡化複雜雲端基礎架構的管理作業:隨著雲端環境的規模和複雜度日益增加,資源管理作業也越來越困難。設定管理工具提供集中式平台,可管理雲端資源。這些工具可協助您輕鬆追蹤設定、找出問題及實作變更。使用這些工具可提升雲端環境的能見度、控制力和安全性。
自動測試
將自動化測試整合至 CI/CD 管道,有助於確保雲端應用程式的品質和可靠性。在部署前驗證變更,可大幅降低錯誤和回歸的風險,進而打造更穩定且強大的軟體系統。這項建議與運作準備程度的這些重點領域相關:程序和工具。
在 CI/CD 管道中加入自動化測試的主要優點如下:
- 提早偵測錯誤和瑕疵:自動化測試有助於在開發流程早期偵測錯誤和瑕疵,避免這些問題在生產過程中造成重大影響。這項功能可避免在開發過程的後續階段進行成本高昂的重工和修正錯誤,進而節省時間和資源。
- 符合標準的高品質程式碼:自動測試可確保程式碼符合特定標準和最佳做法,有助於提升程式碼整體品質。這項功能可讓您建構更易於維護且可靠的應用程式,減少發生錯誤的機率。
您可以在 CI/CD 管道中使用各種測試技術。每種測試類型都有特定用途。
- 單元測試的重點在於測試個別程式碼單元 (例如函式或方法),確保這些單元能正常運作。
- 整合測試會測試應用程式不同元件或模組之間的互動,確認這些元件或模組能否正常協同運作。
- 端對端測試通常會與單元和整合測試搭配使用。端對端測試會模擬實際情況,測試整個應用程式,確保應用程式符合使用者的需求。
如要將自動化測試有效整合至 CI/CD 管道,請務必選擇合適的測試工具和架構。市面上有許多不同選項,各有優缺點。您也必須制定明確的測試策略,說明要執行的測試類型、測試頻率,以及測試通過或失敗的標準。按照這些建議操作,可確保自動測試程序有效率且成效良好。這類程序可提供寶貴的洞察資料,協助您瞭解雲端應用程式的品質和可靠性。
持續改善和創新
Google Cloud 架構完善架構的卓越營運支柱包含這項原則,可提供建議,協助您持續最佳化雲端作業並推動創新。
原則總覽
如要持續改善雲端服務並創新,您必須專注於持續學習、實驗和調整。這有助於探索新技術及改善現有程序,並推動卓越文化,讓貴機構能達成並維持產業領導地位。
透過持續改善與創新,您可以達成下列目標:
- 加速創新:探索新技術和服務,提升功能並推動差異化。
- 降低成本:透過流程改善計畫找出並消除效率不彰之處。
- 提升敏捷度:迅速因應不斷變化的市場需求和顧客需求。
- 提升決策品質:從資料和分析結果中取得寶貴洞見,根據資料做出決策。
組織若採用持續改善和創新原則,就能充分發揮雲端環境的潛力,實現永續成長。這項原則主要對應到「營運準備程度」焦點領域的「員工」。創新文化可讓團隊嘗試使用新工具和技術,擴展功能並降低成本。
建議
如要持續改善及創新雲端工作負載,請參考下列各節的建議。本文中的每項建議都與一或多個作業準備就緒的重點領域相關。
培養學習文化
鼓勵團隊進行實驗、分享知識,並持續學習。建立不究責的文化,將失敗視為成長和改善的機會。這項建議與作業準備程度的員工隊伍重點領域相關。
如果能培養學習文化,團隊就能從錯誤中學習,並快速疊代。這種做法可鼓勵團隊成員冒險嘗試新想法,並拓展工作範圍。此外,這也有助於營造心理安全環境,讓個人能放心分享失敗經驗並從中學習。以這種方式分享可營造更開放的協作環境。
為促進知識分享和持續學習,請為團隊創造分享知識和互相學習的機會。您可以透過非正式和正式的學習課程和研討會達成此目標。
培養實驗、知識分享和持續學習的文化,打造團隊勇於冒險、創新和成長的環境。這種環境有助於提高生產力、改善解決問題的能力,並提升員工的參與度和積極性。此外,透過推廣無責文化,您可以為員工創造安全空間,讓他們從錯誤中學習,並貢獻團隊的集體知識。這種文化最終會培養出韌性更強、適應力更高的員工,他們將能更妥善地應對挑戰,並在長期內推動成功。
定期進行回顧
團隊可藉由回顧會議反思自身體驗、找出優點和可改善之處,在專案或重大事件結束後進行回顧,有助於團隊從成功和失敗中學習,並持續改善程序和做法。這項建議與運作準備程度的下列重點領域相關:程序和管理。
如要有效安排回顧會議,建議使用「開始-停止-繼續」模型:
- 開始:在回顧的「開始」階段,團隊成員會找出他們認為可以提升工作的新做法、程序和行為。他們會討論為何需要變更,以及如何實作。
- 停止:在「停止」階段,團隊成員會找出並淘汰不再有效或阻礙進展的做法、程序和行為。他們會討論這些變更的必要性,以及如何實作。
- 繼續:在「繼續」階段,團隊成員會找出運作良好的做法、程序和行為,並繼續採用。他們會討論這些要素的重要性,以及如何強化這些要素。
使用「開始-停止-繼續」模型等結構化格式,團隊可確保回顧會議的成效和重點。這個模式有助於促進討論、找出主要重點,以及確定可採取哪些步驟來改善日後成效。
掌握雲端技術的最新動態
如要充分發揮 Google Cloud 服務的潛力,請務必掌握最新進展、功能和最佳做法。這項建議與作業準備程度的員工隊伍重點領域相關。
參加相關會議、網路研討會和訓練課程,是拓展知識的絕佳方式。這些活動提供向專家學習、瞭解新功能,以及與可能面臨類似挑戰的同業交流的機會。 Google Cloud 參加這些課程,您就能深入瞭解如何有效使用新功能、最佳化雲端作業,以及在貴機構推動創新。
為確保團隊成員能掌握雲端技術,請鼓勵他們取得認證並參加訓練課程。 Google Cloud提供各種認證,可驗證特定雲端領域的技能和知識。取得這些認證代表您致力於追求卓越,並提供雲端技術專業能力的具體證明。Google 和合作夥伴提供的訓練課程會深入探討特定主題。 Google Cloud 提供直接體驗和實用技能,可立即應用於實際專案。投資團隊的專業發展,有助於培養持續學習的文化,確保每個人都具備在雲端環境中獲得成功的必要技能。
積極尋求並採納意見
收集使用者、利害關係人和團隊成員的意見回饋。您可以根據意見回饋找出改善雲端解決方案的機會。這項建議與作業準備程度的勞動力重點領域相關。
收集到的意見回饋可協助您瞭解解決方案使用者的需求、問題和期望。這項意見回饋是我們進行改善和安排日後強化功能優先順序的重要依據。您可以透過各種機制收集意見回饋:
- 問卷調查是從大量使用者和利害關係人收集量化資料的有效方式。
- 使用者訪談是深入收集質性資料的好機會。訪談可協助您瞭解個別使用者的具體挑戰和體驗。
- 雲端解決方案內建的意見回饋表單,可讓使用者輕鬆提供即時意見回饋。
- 與團隊成員定期開會,有助於收集技術層面和導入挑戰方面的意見回饋。
您必須分析及彙整透過這些機制收集到的意見回饋,找出常見的主題和模式。這項分析可協助您根據建議改善措施的影響和可行性,優先進行未來的強化作業。解決透過意見回饋發現的需求和問題,確保雲端解決方案持續滿足使用者和利害關係人不斷變化的需求。
評估及追蹤進度
主要成效指標 (KPI) 和指標對於追蹤進度及評估雲端作業的成效至關重要。KPI 是可量化的指標,反映整體成效。指標是計算 KPI 時使用的特定資料點。定期查看指標,找出改善空間並評估進展。這麼做有助於持續改善及調整雲端環境。 這項建議與營運準備就緒的下列重點領域相關:管理和程序。
使用 KPI 和指標的主要好處是,貴機構可以採用資料導向的方法進行雲端作業。追蹤及分析營運資料,有助您做出明智決策,進一步改善雲端環境。這種以資料為依據的方法有助於找出趨勢、模式和異常狀況,如果沒有系統化指標,可能就無法發現這些現象。
如要收集及分析作業資料,可以使用 Cloud Monitoring 和 BigQuery 等工具。Cloud Monitoring 可即時監控雲端資源和服務。BigQuery 可讓您儲存及分析透過監控收集的資料。搭配使用這些工具,即可建立自訂資訊主頁,以視覺化方式呈現重要指標和趨勢。
營運資訊主頁可集中顯示最重要的指標,方便您快速找出需要注意的領域。舉例來說,資訊主頁可能會顯示特定應用程式或服務的 CPU 使用率、記憶體用量、網路流量和延遲時間等指標。監控這些指標有助於快速找出潛在問題,並採取行動解決問題。