SRE实践指南
SLI / SLO / SLA 定义
| 术语 | 定义 | 示例 |
|---|---|---|
| SLI(服务水平指标) | 衡量服务健康状况的可测量指标 | 请求成功率、p99 延迟、错误率 |
| SLO(服务水平目标) | 时间窗口内 SLI 的目标值 | 30 天内 99.9% 可用性 |
| SLA(服务水平协议) | 合同承诺——未达 SLO 的后果 | 99.9% 在线时间;低于则退还 10% 费用 |
| 错误预算 | 1 - SLO = 允许的宕机/错误量 | 99.9% SLO = 每月 43.8 分钟预算 |
常见 SLI
| 服务类型 | 关键 SLI |
|---|---|
| 请求/响应(API) | 可用性(2xx/总计)、p99 延迟、错误率 |
| 数据管道 | 新鲜度(上次成功运行以来的时间)、准确性 |
| 存储 | 持久性(数据丢失率)、读写可用性、延迟 |
| 批处理 | 吞吐量、完成率、成功率 |
可用性数字参考
| 可用性 | 年宕机时间 | 月宕机时间 | 周宕机时间 |
|---|---|---|---|
| 99%(两个9) | 3.65 天 | 7.31 小时 | 1.68 小时 |
| 99.9%(三个9) | 8.77 小时 | 43.8 分钟 | 10.1 分钟 |
| 99.99%(四个9) | 52.6 分钟 | 4.38 分钟 | 1.01 分钟 |
| 99.999%(五个9) | 5.26 分钟 | 26.3 秒 | 6.05 秒 |