在雲端管理旺季或高流量事件時,有三個重要階段:
- 準備:完成活動相關活動和工作,包括架構審查、容量規劃和建立預訂。
- 執行:活動開始時,密切監控並採取適當行動。
- 分析:活動結束後,請分析哪些方面做得好、哪些方面做得不好,以及如何改善日後的活動。
請務必瞭解並遵循這些階段的特定最佳做法,以便在事件期間以最短的停機時間 (或是完全不停機) 提供服務,而且不會對效能或使用者體驗造成負面影響。
準備:詳細說明活動規劃程序
在準備處理高峰容量事件時,您應與帳戶團隊或客戶技術管理團隊合作,協助您查看架構、建立圖表、時間表和啟動檢查清單,根據預期流量設定服務配額,並判斷對專案的整體影響。
您應提前規劃活動。在某些情況下,您可能需要提前數月開始規劃,即使服務仍在開發階段也一樣。組成團隊,協助您審查所提案的活動工作流程、預期目標對象、需求和成功標準,以及端對端媒體放送鏈。準備階段應包括風險評估、風險緩解計畫,以及營運就緒性審查,以確保流程設計良好。
如需更多資訊,請參閱Google Cloud 架構架構,其中提供建議,可協助架構師、開發人員、管理員和其他雲端專業人員設計及操作安全、有效率、有彈性、高效能且符合成本效益的雲端拓樸。
執行:監控執行狀況並著手應對
旺季或上市活動開始時,您必須密切監控活動情形,並視需要採取因應措施。在準備階段設定監控、快訊和記錄功能後,您就能監控對業務至關重要的流量、記錄和配額層級,並利用這些資訊找出根本原因,快速解決問題。詳情請參閱「查看快訊和資訊主頁」。
如果發生任何問題,請務必擬定明確的事件管理和提報程序,才能省下處理及解決問題所需的時間與心力。如果您尚未建立事件管理程序,請先建立。詳情請參閱「準備好在活動期間解決問題」。
分析:查看並記錄分析結果
在旺季或上市活動結束後,請檢視並分析活動,然後將學到的經驗記錄下來,以應用到日後的重要活動。
請著重於以下幾個領域:
時間軸回顧:記錄流量開始增加的時間,以及活動期間的重要事件 (高峰期)。指出問題發生的時間 (如果有)。
根本原因分析:調查發生的任何問題。您或 Google Cloud 是否可以採取其他做法?這是下次要考慮的事項嗎?記錄所有學到的經驗,以及日後改善所需的必要步驟。
比較預測結果與實際情況:分析流量預測結果與實際記錄的流量。哪些地方需要額外資源?哪些資源未充分利用或不必要?
回顧:與重要利害關係人分享並查看上述資訊。營造不責怪文化,假設所有相關人員都有良好意圖,並專注於找出造成問題的原因,不指責任何個人或團隊。