Google Cloud 架構完善架構的卓越營運支柱中,這項原則提供相關建議,協助您管理雲端工作負載的事件和問題。包括實施全方位的監控和可觀測性、建立明確的事件應變程序、進行徹底的根本原因分析,以及實施預防措施。本原則中討論的許多主題,在「可靠性」支柱中都有詳細說明。
原則總覽
事件管理和問題管理是功能性作業環境的重要元件。您如何因應、分類及解決不同嚴重程度的事件,會大幅影響作業模式。您也必須主動持續進行調整,以提升可靠性和效能。事件和問題管理流程是否有效率,取決於下列基本要素:
- 持續監控:快速找出並解決問題。
- 自動化:簡化工作流程並提升效率。
- 協調:有效協調及管理雲端資源。
- 資料驅動的洞察資訊:最佳化雲端作業並做出明智決策。
這些元素可協助您建構彈性雲端環境,因應各種挑戰和中斷情況。這些要素也有助於降低代價高昂的事件和停機風險,並協助您提高業務靈活度和成就。這些基礎元素分布在作業準備就緒的四個重點領域:員工、流程、工具和管理。
建議
如要有效管理事件和問題,請參考下列各節的建議。本文中的每項建議都與一或多個營運準備就緒的重點領域相關。
建立明確的事件應變程序
明確劃分角色和職責,是確保有效且協調一致地回應事件的必要條件。此外,明確的通訊協定和升級路徑有助於確保在事件期間及時有效地分享資訊。這項建議與營運準備就緒的重點領域相關:員工、程序和工具。
如要建立事件應變程序,您必須定義每個團隊成員的角色和期望,例如事件指揮官、調查人員、溝通人員和技術專家。建立溝通和提報路徑包括找出重要聯絡人、設定溝通管道,以及定義必要時將事件提報給更高層級管理人員的程序。定期訓練和準備有助於確保團隊具備應對事件的知識和技能,能有效應變。
在執行手冊或應變手冊中記錄事件應變程序,可為團隊提供標準化的參考指南,以便在事件發生時遵循。這份手冊必須列出事件回應流程各階段應採取的步驟,包括通訊、分類、調查和解決。此外,也必須包含相關工具和資源的資訊,以及重要人員的聯絡資訊。您必須定期檢查及更新執行手冊,確保手冊內容符合現況且有效。
集中管理事件
如要有效追蹤及管理整個事件生命週期,建議使用集中式事件管理系統。這項建議與運作準備程度的這些重點領域相關:程序和工具。
集中式事件管理系統具有下列優點:
- 提升能見度:將所有事件相關資料集中在單一位置,團隊就不必在各種管道或系統中搜尋背景資訊。這種做法可節省時間、減少混淆,並讓利害關係人全面瞭解事件,包括事件狀態、影響和進度。
- 提升協調與協作效率:集中式系統提供統一的通訊和工作管理平台,有助於參與事件應變的不同部門和職能之間,進行無縫協作。確保所有人都可存取最新資訊,並降低溝通不良和意見不合的風險。
- 提升問責和擁有權:集中式事件管理系統可讓機構將工作分配給特定個人或團隊,確保責任明確定義及追蹤。這種做法可促進責任感,並鼓勵主動解決問題,因為團隊成員可以輕鬆監控自己的進度和貢獻。
集中式事件管理系統必須提供強大的功能,以便追蹤事件、指派工作及管理通訊。這些功能可讓您自訂工作流程、設定優先順序,以及與其他系統整合,例如監控工具和票證系統。
導入集中式事件管理系統後,即可改善組織的事件應變程序、提升協作效率,並充分掌握各種情況。這樣做可縮短事件解決時間、減少停機時間,並提升顧客滿意度。此外,您也可以從過去的事件中學習,找出需要改進的地方,進而培養持續改善的文化。
徹底進行事件後檢討
事件發生後,您必須進行詳細的事件後檢討 (PIR),又稱事後檢討,找出根本原因、促成因素和學到的經驗。這項全面審查有助於您防範日後發生類似事件。這項建議與運作準備程度的下列重點領域相關:程序和管理。
PIR 程序必須由跨領域團隊執行,團隊成員須具備事件各方面的專業知識。團隊必須透過訪談、文件審查和現場檢查,收集所有相關資訊。必須建立事件時間軸,以確立導致事件發生的動作順序。
團隊收集必要資訊後,必須進行根本原因分析,找出導致事件發生的因素。這項分析必須找出直接原因,以及導致事件發生的系統性問題。
除了找出根本原因,PIR 團隊也必須找出可能導致事件的其他因素。這些因素可能包括人為錯誤、設備故障,或組織因素 (例如溝通中斷和缺乏訓練)。
PIR 報告必須記錄調查結果,包括事件時間表、根本原因分析和建議採取的行動。這份報告是實施矯正措施和防止再次發生的寶貴資源。這份報告必須與所有相關利害關係人分享,並用於制定安全訓練和程序。
為確保 PIR 程序順利進行,貴機構必須培養不究責的文化,著重於學習和改善,而非指責。這種文化可鼓勵個人回報事件,而不必擔心遭到報復,同時也能協助您解決系統性問題,並做出有意義的改善。
徹底執行 PIR,並根據調查結果採取矯正措施,可大幅降低日後發生類似事件的風險。這種主動調查和預防事件的方法,有助於為所有相關人員打造更安全有效率的工作環境。
維護知識庫
已知問題、解決方案和疑難排解指南的知識庫,對於事件管理和解決至關重要。團隊成員可以利用知識庫快速找出並解決常見問題。導入知識庫有助於減少升級需求,並提升整體效率。這項建議與以下營運準備就緒的重點領域相關:員工和流程。
知識庫的主要優點在於,團隊可以從過去的經驗中學習,避免重蹈覆轍。擷取並分享已知問題的解決方法,有助於團隊共同瞭解如何解決常見問題,以及事件管理的最佳做法。使用知識庫可節省時間和精力,並有助於將程序標準化,確保事件解決方式一致。
知識庫不僅有助於縮短事件解決時間,還能促進團隊間的知識分享與協作。有了集中式資訊存放區,團隊就能輕鬆存取知識庫並提供內容,進而推動持續學習和改善的文化。這種文化鼓勵團隊分享專業知識和經驗,進而建立更全面且有價值的知識庫。
如要有效建立及管理知識庫,請使用適當的工具和技術。Google Workspace 等協作平台非常適合用於此目的,因為您可以在這些平台上輕鬆建立、編輯及共用文件,與他人協同作業。這些工具也支援版本控管和變更追蹤,確保知識庫維持最新狀態和準確性。
讓所有相關團隊都能輕鬆存取知識庫。如要達成這個目標,您可以將知識庫與現有的事件管理系統整合,或是提供專屬入口網站或內部網路網站。知識庫隨時可用,團隊可快速存取所需資訊,有效率地解決事件。這項可用性有助於減少停機時間,並盡量降低對業務營運的影響。
定期檢查並更新知識庫,確保內容實用且符合需求。監控事件報告、找出常見問題和趨勢,並將新的解決方案和疑難排解指南納入知識庫。最新的知識庫可協助團隊更快速有效地解決事件。
自動化事件回應
自動化有助於簡化事件應變和補救程序。可協助您迅速有效地解決安全漏洞和系統故障問題。使用 Google Cloud Cloud Run functions 或 Cloud Run 等產品,即可自動執行通常需要手動操作且耗時的各種工作。這項建議與運作準備程度的下列重點領域相關:程序和工具。
自動事件回應功能有下列優點:
- 縮短事件偵測和解決時間:自動化工具可持續監控系統和應用程式、即時偵測可疑或異常活動,並通知利害關係人或在不需介入的情況下做出回應。這項自動化功能可協助您找出潛在威脅或問題,避免情況加劇。偵測到事件時,自動化工具可以觸發預先定義的補救措施,例如隔離受影響的系統、隔離惡意檔案,或還原變更,將系統恢復到已知良好的狀態。
- 減輕資安和營運團隊的負擔:自動化事件回應功能可讓資安和營運團隊專注於更具策略性的工作。透過自動執行例行和重複性工作 (例如收集診斷資訊或觸發警示),貴機構可以讓人員騰出時間處理更複雜和重要的事件。這項自動化功能可提升整體事件應變的效率和成效。
- 提升補救程序的一致性和準確度: 自動化工具可確保補救措施統一套用至所有受影響的系統,盡量減少人為錯誤或不一致的風險。這項標準化補救程序有助於盡量減少事件對使用者和業務的影響。