为可靠性设置切合实际的目标

Google Cloud Well-Architected Framework 的可靠性支柱中包含此原则,可帮助您定义 Google Cloud中工作负载在技术上可行的可靠性目标。

此原则与可靠性的范围 重点关注领域相关。

原则概览

将您的系统设计为足够可靠,保证用户满意度。这似乎不合常理,但 100% 可靠性的目标通常并不是最有效的策略。更高的可靠性可能会显著增加成本,这包括在资金投资和对创新的潜在限制方面。如果用户已经对当前的服务水平感到满意,那么努力进一步提高满意度可能会带来较低的投资回报率。相反,您可以将资源更好地投入到其他地方。

您需要确定用户满意的可靠性级别,并确定增量改进的成本开始超过收益的阶段。当您确定这种可靠性级别后,就可以有策略地分配资源,专注于可以为用户提供更大价值的功能和改进。

建议

如需设置切合实际的可靠性目标,请考虑以下小节中的建议。

接受部分故障并确定组件优先级

应以高可用性(例如 99.99% 的正常运行时间)为目标,但不要将目标设置为 100% 的正常运行时间。承认某些失败是不可避免的。

只要达到 100% 的正常运行时间和达到 99.99% 的目标,即可允许出现故障。 这种差距通常称为“错误预算”。错误预算可以帮助您冒险和创新,这对于保持竞争力来说是任何业务的基础。

优先考虑系统中最关键组件的可靠性。 接受不太重要的组件可以有更高的故障容忍度。

在可靠性和费用之间取得平衡

如需确定系统的最佳可靠性级别,请进行全面的成本效益分析。

因此,您需要考虑系统要求、故障后果以及贵组织对特定应用的风险容忍度等因素。请务必考虑您的灾难恢复指标,例如恢复时间目标 (RTO) 和恢复点目标 (RPO)。确定在预算和其他限制内可接受的可靠性级别。

设法在不影响基本可靠性功能的情况下提高效率、降低费用。