在云端管理旺季或高流量活动时,有三个关键阶段:
- 准备:完成活动准备活动和任务,包括架构审核、容量规划和创建预订。
- 执行:活动开始后,密切监控并相应地做出响应。
- 分析:活动结束后,分析哪些方面做得好、哪些方面做得不好,以及如何改进未来的活动。
您应在这些阶段了解并遵循特定的最佳实践,以便在活动期间以最短的停机时间或无停机时间提供服务,并且不会降低性能或用户体验。
准备:详细说明活动策划流程
在准备应对高峰流量事件的过程中,您应与客户支持团队或 TAM 联系,让对方帮助您检查架构、创建图表、时间表和发布核对清单,根据预计的流量配置文件检查服务配额,并确定对项目的总体影响。
您应提前做好活动策划。在某些情况下,您可能需要在服务仍处于开发阶段时提前数月开始规划。组建一个团队,帮助您审核提议的活动工作流、预期观众、要求和成功标准,以及端到端媒体提交链。准备阶段应包括风险评估、缓解措施规划和运营准备情况审核,以确保您的工作流设计得当。
如需了解详情,请参阅 Google Cloud 架构框架,其中提供了一些建议,可帮助架构师、开发者、管理员和其他云从业人员设计和运营安全、高效、弹性佳、高性能且经济实惠的云拓扑。
执行:在执行期间监控和响应
当旺季或发布活动开始时,您需要密切监控活动并根据需要做出响应。在准备阶段设置监控、提醒和日志记录后,您可以监控业务关键型流量、日志和配额级别,并使用这些信息确定根本原因并快速解决问题。如需了解详情,请参阅查看提醒和信息中心。
如果出现任何问题,明确定义的突发事件管理和上报流程是减少处理和解决问题所需精力和时间的关键。如果您尚未建立,请建立事故管理流程。如需了解详情,请参阅为解决活动期间的问题做好准备。
分析:查看和记录分析
当高峰季节或发布活动结束后,请查看和分析该活动,并记录所学到的经验教训,以便将其应用到下一个重大活动中。
重点关注以下方面:
时间轴数据总结:记录流量开始增加的时间,以及活动期间的主要事件(高峰)。确定问题出现的时间(如果有)。
根本原因分析:调查发生的任何问题。您或 Google Cloud 是否可以采取其他做法?下次是否需要考虑这个问题?记录所有经验教训,并记录日后改进所需的步骤。
比较预测结果与实际情况:分析流量预测结果与您记录的实际流量。哪些方面需要额外的资源?哪些资源未得到充分利用或不必要?
回顾:与关键利益相关方分享和审核上述信息。提倡无指责文化,即假定所有相关人员都有良好的意图,并专注于找出导致问题的原因,而不指责任何个人或团队。