持续监控和改进性能

Google Cloud Well-Architected Framework 的性能优化要素中的这一原则提供了一些建议,可帮助您持续监控和提升性能。

部署应用后,您可以使用日志、跟踪、指标和提醒来持续监控其性能。随着应用的增长和发展,您可以利用这些数据点中的趋势来重新评估您的性能要求。您最终可能需要重新设计应用的某些部分,以维护或提升其性能。

原则概览

持续改进性能的过程需要强大的监控工具和策略。Cloud 可观测性工具可帮助您收集关键性能指标 (KPI),例如延迟时间、吞吐量、错误率和资源利用率。云环境提供了多种方法,用于对应用、网络和最终用户体验进行精细的性能评估。

提升性能是一项持续的工作,需要多方面的方法。以下关键机制和流程可帮助您提升性能:

  • 为提供明确的方向并帮助跟踪进度,请定义与您的业务目标相一致的性能目标。设定 SMART 目标:具体、可衡量、可实现、相关且有时限。
  • 如需衡量性能并确定需要改进的方面,请收集 KPI 指标。
  • 如需持续监控系统是否存在问题,请使用监控工具中的可视化工作流。使用架构流程映射技术来识别冗余和低效问题。
  • 为了打造持续改进的文化,请提供支持员工成长的培训和计划。
  • 为鼓励积极主动且持续的改进,请鼓励您的员工和客户提供有关应用性能的持续反馈。

建议

如需推广模块化设计,请考虑以下部分中的建议。

设定明确的效果目标和指标

定义与您的业务目标相一致的清晰性能目标。这需要深入了解应用的架构以及每个应用组件的性能要求。

优先优化会直接影响核心业务功能和用户体验的最关键组件。为了帮助确保这些组件继续高效运行并满足您的业务需求,请设置具体且可衡量的效果目标。这些目标可以包括响应时间、错误率和资源利用率阈值。

这种主动式方法可帮助您识别和解决潜在瓶颈、优化资源分配,并最终为您的用户提供无缝且高性能的体验。

监控效果

持续监控您的云系统是否存在性能问题,并针对任何潜在问题设置提醒。借助监控和提醒功能,您可以发现并修复问题,以免影响用户。应用性能分析有助于识别瓶颈,并且有助于优化资源使用。

您可以使用有助于有效问题排查和网络优化的工具。使用 Google Cloud Observability 确定 CPU 消耗、内存消耗或网络消耗较多的区域。这些功能可以帮助开发者提高效率、降低费用并改善用户体验。Network Intelligence Center 可直观呈现网络基础架构的拓扑,可帮助您识别高延迟路径。

鼓励持续改进

打造一种持续改进的文化,对应用和用户体验都有益。

为您的员工提供培训和发展机会,提高他们在各种云服务的性能技术方面的技能和知识。建立实践社区 (CoP) 并提供指导和指导计划,以支持员工成长。

为了防止被动的性能管理,并鼓励积极主动地管理性能,应鼓励员工、客户和利益相关方持续提供反馈。您可以考虑通过跟踪有关性能的 KPI 并以联赛表的形式频繁向团队展示这些指标,使流程实现游戏化。

为了了解应用在一段时间内的表现和用户满意度,我们建议您对用户反馈进行定量和定性衡量。HEART 框架可帮助您捕获以下五类用户反馈:

  • 幸福
  • 互动
  • 采用
  • 留存率
  • 任务成功

通过使用这种框架,您可以通过以数据为依据的反馈、以用户为中心的指标、富有实用价值的分析洞见以及对目标的清晰了解来激励工程师。