设计 SLO

本页面提供您在创建服务等级目标 (SLO) 之前可能需要的信息。

SLI 类型和合规目标

Cloud Service Mesh 支持以下类型的服务等级指标：

延迟时间：服务返回请求的响应所需的时间（以毫秒为单位）。
可用性：服务成功响应的时间比例。
其他：基于可配置指标的可自定义 SLO 类型。

您还需要定义您希望从服务中实现的合规目标。一般来说，SLO 不应高于用户必要或有意义的内容。考虑用户可能会注意到服务降级的情况。例如，如果您的用户无法分辨服务的延迟时间是 300 毫秒还是 500 毫秒，请使用更高的值作为 SLO 中的延迟时间阈值。较低的值需要较高的成本才能满足，并且您的用户并不会注意到两者之间的差异。

设置合规目标时，考虑服务的最终用户要求。例如，员工在预订休假时间时使用的内部工具可能没有问题，目标可用性为 99％（每年大约 3 天的停机时间）。但是，网店的关键服务可能需要 99.999% 的可用性（每年约 5 分钟的停机时间）。

合规期

除了为 SLI 定义目标之外，SLO 还指定衡量 SLI 的时间段。例如，某一天内的 99% 可用性与一个月内的 99% 可用性不同。第一个 SLO 不允许 14 分钟以上的连续停机时间（24 小时 * 1%），而第二个 SLO 允许连续停机时间长达约 7 小时（30 天 * 1%）。

如果将 SLO 包含在与您的用户达成的服务等级协议 (SLA) 中，则合规期尤为重要。SLA 是与服务用户达成的合同，通常指定不满足 SLO 的后果。您与用户是否达成 SLA 是产品或业务决策，但出于监控目的，您仍然需要在创建 SLO 时指定合规期。

配置 SLO 时，您需选择合规期的类型：

日历：选择日历作为期间类型时，您还需指定期间长度，可以是天、周或月。期间不重叠，并且固定在日历的开始日期和结束日期中。只能在时间段结束时评估合规性。
滚动：选择滚动作为期间类型时，您还需指定期间长度的天数，例如 30 天。与日历期间不同，滚动期间没有固定的开始日期和结束日期。Cloud Service Mesh 会在滚动合规期内持续评估 SLO。以前计算中的最旧数据将被替换为新数据，因此在当前计算中将弃用。滚动期间可提供更多的合规性衡量结果，因为每天您衡量的都是过去 30 天的合规性，而不是每月一次。但是，由于 SLO 状态会每天发生变化，服务可能会在合规和不合规之间摇摆。

错误预算

另一个重要的监控概念是错误预算。SLO 指定 SLI 和目标值，用于衡量服务在合规期的成功程度。SLO 的错误预算表示服务可以在其违反 SLO 之前不合规的总时间量。因此，错误预算为 100% - SLO%。例如，如果您的滚动 30 天可用性 SLO 的合规目标是 99.99%，则错误预算为 30 天的 0.01%：每 30 天允许的停机时间刚刚超过 4 分钟。需要满足 100% SLO 的服务没有错误预算。

通过错误预算，您可以跟踪在合规期的剩余时间内在服务违反 SLO 之前允许的不良 SLI 衡量结果数。您可以使用错误预算来帮助管理维护任务，例如部署新版本。当错误预算接近耗尽时，不宜采取有风险的操作，例如部署新更新。相反，如果您在合规期快结束之前具有全部错误预算，则可能想要启动新功能，因为违反 SLO 的风险较低。

如果您在衡量具有日历合规期的 SLO 时，Service Mesh 会在最大值处启动错误预算并随着时间推移减少预算，从而在错误预算下降到低于 0 时触发 SLO 违规。Cloud Service Mesh 会在合规期结束时重置 SLO 的错误预算。

如果您在滚动合规期测量 SLO，则实际上您始终处在合规期的末尾。系统会不断删除旧数据点并不断添加新数据点，而不是从头开始。如果某个合规性不佳的时间段超过合规窗口，并且 SLO 合规，则错误预算会增加。在任何时间点，error budget ≥ 0 表示滚动 SLO 窗口合规，而 error budget < 0 表示滚动 SLO 窗口不合规。

后续步骤

在 Google 站点可靠性工程中详细了解 SLO：
- 站点可靠性工程
- 站点可靠性工作簿
创建 SLO
监控 SLO