灾难恢复指南
RTO与RPO解释
RTO
Recovery Time Objective
最长可接受停机时间。系统必须多快恢复?
示例:"故障后必须在4小时内恢复服务。"
RPO
Recovery Point Objective
最多可接受的数据丢失量。我们能承受丢失多少数据?
示例:"最多可以丢失1小时的交易数据。"
灾备策略层级
| 策略 | RTO | RPO | 成本 | 描述 |
|---|---|---|---|---|
| 备份与恢复 | Hours | Hours | 低 | 备份到冷存储 |
| 导航灯 | 30–60 min | Minutes | 中 | 核心服务运行,灾时扩展 |
| 温备份 | Minutes | Seconds | 中高 | 缩小版副本常时运行 |
| 主-主 | <1 min | ~0 | 高 | 多区域完整冗余 |
灾备运行手册清单
- ☐ 记录所有关键系统和依赖
- ☐ 为每个服务层级定义RTO和RPO
- ☐ 自动化备份测试(每季度恢复验证)
- ☐ 每年进行灾备演练
- ☐ 维护带外通信渠道
- ☐ 记录逐步故障转移程序