为可靠性设置切合实际的目标

Last reviewed 2024-12-30 UTC

Google Cloud 架构完善框架的可靠性支柱中的这一原则可帮助您为 Google Cloud中的工作负载定义在技术上可行的可靠性目标。

此原则与可靠性的范围界定 重点领域相关。

原则概览

设计系统时,可靠性应足以让用户满意。虽然这看起来有悖常理,但以 100% 可靠性为目标往往不是最有效的策略。更高的可靠性可能会导致成本大幅增加,无论是财务投资还是创新方面的潜在限制。如果用户对当前的服务水平已经很满意,那么进一步提高用户满意度的努力可能会带来较低的投资回报率。这样一来,您就可以将资源更好地用于其他方面。

您需要确定用户满意的可靠性水平,并确定增量改进的成本开始超过收益的点。当您确定已达到足够的可靠性时,就可以有策略地分配资源,并专注于为用户带来更大价值的功能和改进。

建议

如需设置切合实际的可靠性目标,请考虑以下各子部分中的建议。

接受部分失败并确定组件的优先级

力求实现高可用性(例如 99.99% 的正常运行时间),但不要将目标设置为 100% 的正常运行时间。承认有些失败是不可避免的。

100% 正常运行时间与 99.99% 目标值之间的差距是允许的故障时间。 这种差距通常称为“误差预算”。错误预算有助于您冒险和创新,这对于任何企业保持竞争力都至关重要。

优先考虑系统中最重要的组件的可靠性。 接受不太关键的组件可以具有更高的故障容忍度。

平衡可靠性和费用

如需确定系统的最佳可靠性级别,请进行全面的成本效益分析。

请考虑系统要求、故障后果以及组织对特定应用的风险承受能力等因素。请务必考虑灾难恢复指标,例如恢复时间目标 (RTO) 和恢复点目标 (RPO)。在预算和其他限制条件下,确定可接受的可靠性水平。

寻找在不影响基本可靠性功能的前提下提高效率和降低成本的方法。