根据用户体验目标定义可靠性

Last reviewed 2024-12-30 UTC

Google Cloud 架构完善框架的可靠性支柱中的这一原则可帮助您评估用户体验,然后将评估结果映射到可靠性目标和指标。

此原则与可靠性的范围界定 重点领域相关。

原则概览

可观测性工具可提供大量数据,但并非所有数据都直接与对用户的影响相关。例如,您可能会发现 CPU 使用率过高、服务器运行缓慢,甚至任务崩溃。不过,如果这些问题不影响用户体验,则不属于中断。

为了衡量用户体验,您需要区分内部系统行为和面向用户的问题。重点关注用户请求成功率等指标。不要仅依赖 CPU 使用率等以服务器为中心的指标,这可能会导致对服务可靠性的结论产生误导。真正的可靠性是指用户可以持续有效地使用您的应用或服务。

建议

为帮助您有效衡量用户体验,请考虑以下各部分中的建议。

衡量用户体验

如需真正了解服务的可靠性,请优先考虑反映用户实际体验的指标。例如,衡量用户的查询成功率、应用延迟时间和错误率。

最好直接从用户的设备或浏览器收集这些数据。如果无法直接收集这些数据,请逐步将系统中的衡量点移离用户。例如,您可以使用负载均衡器或前端服务作为测量点。这种方法有助于您在问题对用户造成重大影响之前发现并解决问题。

分析用户体验历程

如需了解用户与系统的互动情况,您可以使用 Cloud Trace 等跟踪工具。 通过跟踪用户在应用中的历程,您可以找到可能会降低用户体验的瓶颈和延迟时间问题。Cloud Trace 可捕获服务架构中每个跃点的详细性能数据。此数据有助于您更高效地发现和解决性能问题,从而提供更可靠、更令人满意的用户体验。