此页面由 Cloud Translation API 翻译。

设定切合实际的可靠性目标

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework 可靠性核心中的这一原则可帮助您为 Google Cloud中的工作负载定义在技术上可行的可靠性目标。

此原则与可靠性的范围界定 重点领域相关。

原则概览

设计系统时，可靠性应足以让用户满意。虽然这可能看起来有悖常理，但以 100% 可靠性为目标往往不是最有效的策略。更高的可靠性可能会导致成本大幅增加，无论是财务投资还是创新方面的潜在限制。如果用户对当前的服务水平已经很满意，那么进一步提高用户满意度的努力可能会带来较低的投资回报率。这样一来，您就可以将资源更好地用于其他方面。

您需要确定用户满意的可靠性水平，并确定增量改进的成本开始超过收益的点。当您确定了这一足够的可靠性水平后，就可以有策略地分配资源，并专注于为用户带来更大价值的功能和改进。

建议

如需设定切合实际的可靠性目标，请考虑以下各子部分中的建议。

接受部分失败并确定组件的优先级

力求实现高可用性（例如 99.99% 的正常运行时间），但不要将目标设置为 100% 的正常运行时间。承认有些失败是不可避免的。

100% 正常运行时间与 99.99% 目标值之间的差距是允许的故障时间。这种差距通常称为“误差预算”。错误预算有助于您冒险和创新，这对于任何企业保持竞争力都至关重要。

优先考虑系统中最重要的组件的可靠性。接受不太关键的组件可以具有更高的故障容忍度。

平衡可靠性和费用

如需确定系统的最佳可靠性级别，请进行全面的成本效益分析。

请考虑系统要求、故障后果以及组织对特定应用的风险承受能力等因素。请务必考虑您的灾难恢复指标，例如恢复时间目标 (RTO) 和恢复点目标 (RPO)。在预算和其他限制条件下，确定可接受的可靠性水平。

寻找在不影响基本可靠性功能的前提下提高效率和降低成本的方法。

根据用户体验目标定义可靠性

通过冗余构建高可用性