根据用户体验目标定义可靠性

Google Cloud Well-Architected Framework 的可靠性支柱中包含此原则,可帮助您评估用户体验,然后将分析结果映射到可靠性目标和指标。

此原则与可靠性的范围 重点关注领域相关。

原则概览

可观测性工具提供了大量数据,但并非所有数据都与用户的影响直接相关。例如,您可能会发现 CPU 使用率过高、服务器操作缓慢,甚至任务崩溃。但是,如果这些问题不会影响用户体验,就不构成服务中断。

为了衡量用户体验,您需要区分内部系统行为和面向用户的问题。您应重点关注用户请求的成功率等指标。不要仅依赖于以服务器为中心的指标(如 CPU 使用率),因为这些指标可能会使人得出关于服务可靠性的误导性结论。真正的可靠性是指用户可以始终如一地有效地使用您的应用或服务。

建议

为帮助您有效衡量用户体验,请考虑以下部分中的建议。

衡量用户体验

要真正了解服务的可靠性,请优先考虑反映用户实际体验的指标。例如,衡量用户查询成功率、应用延迟时间和错误率。

理想情况下,应直接从用户的设备或浏览器收集此类数据。如果这种直接数据收集不可行,请在系统中逐步将测量点移离用户更远的地方。例如,您可以使用负载平衡器或前端服务作为测量点。此方法可帮助您在问题可能严重影响用户之前发现和解决问题。

分析用户转化历程

如需了解用户如何与系统交互,您可以使用 Cloud Trace 等跟踪工具。通过跟踪用户的使用历程,您可以发现可能会降低用户体验的瓶颈和延迟问题。Cloud Trace 可捕获服务架构中每个跃点的详细性能数据。这些数据有助于您更高效地识别和解决性能问题,从而带来更可靠、更令人满意的用户体验。