事件管理最佳实践

在云端管理高峰期或高流量事件时,有三个关键阶段:

  1. 准备:完成活动和任务以便为事件做好准备,包括架构审核、容量规划和创建预留。
  2. 执行:在事件开始时,密切监控事件并做出相应回应。
  3. 分析:事件完成后,分析哪些方面做得好,哪些方面做得不好,以及如何改进未来的事件。

您应了解并遵循这些阶段的特定最佳实践,以便在事件期间提供服务时尽可能减少或消除停机时间,并且不会降低性能或用户体验。

准备:详细说明事件规划流程

在容量高峰事件的准备阶段,您应与您的客户支持团队或 TAM 联系,以便他们帮助您审核架构、创建图表、时间表和发布核对清单、根据预期的流量情况检查服务配额,并确定对您的项目的总体影响。

您应在事件日期之前很早就开始进行规划。在某些情况下,您可能需要在服务仍处于开发阶段时提前几个月开始进行规划。组建一个团队,帮助您审核您提议的事件工作流、预期受众群体、要求和成功标准,以及端到端媒体传输链。准备阶段应包括风险评估、缓解规划和运营就绪审核,以确保工作流设计得当。

如需了解详情,请参阅Google Cloud 架构框架,其中提供了建议,可帮助架构师、开发者、管理员和其他云从业人员设计和运营安全、高效、弹性佳、性能高且经济实惠的云拓扑。

执行:在执行期间进行监控和回应

在高峰期或发布事件开始时,您需要密切监控活动并根据需要进行回应。在准备阶段设置监控、提醒和日志记录后,您可以监控业务关键流量、日志和配额水平,以及使用这些信息确定根本原因并快速解决问题。如需了解详情,请参阅查看提醒和信息中心

如果发生任何问题,明确定义的事件管理和上报流程是减少处理和解决问题所耗费精力和时间的关键。如果您尚未建立突发事件管理流程,请建立此流程。如需了解详情,请参阅为在事件期间解决问题做好准备

分析:查看分析结果并记录分析

当高峰期或发布事件结束后,需查看并分析相应事件,并记录所吸取的经验教训,以便您在下一个重大事件中加以运用。

重点关注以下几个方面:

  • 时间表摘要:记录流量开始增加的时间以及事件期间发生的关键事件(高峰事件)。确定问题(如果有的话)出现的时间。

  • 根本原因分析:调查出现的任何问题。您或 Google Cloud 可以采取哪些不同的做法?下次是否可以考虑这样做?记录所有吸取的经验教训,以及未来改进所需的步骤。

  • 比较预测与实际情况:分析流量预测与您记录的实际流量。在哪些方面需要额外资源?哪些资源未充分利用或不必要?

  • 回顾:与关键利益相关方分享并审核上述信息。推广无责文化,即假设所有相关人员都有良好的意图,并且您专注于找出导致问题的原因,而不是指责任何个人或团队。

后续步骤