备份策略需兼顾数据一致性、恢复时间(RTO)与数据丢失容忍度(RPO)。在台港或台湾机房经常会面对网络波动与资源限制,选择适合的策略尤为重要。
常见方式包括:1) 磁盘快照(Snapshot):快速、适合系统镜像备份;2) 文件级增量备份(rsync/rdiff-backup):节省带宽与存储;3) 数据库备份(逻辑导出如mysqldump/pg_dump或物理备份如xtrabackup);4) 对象存储归档(备份至云对象存储或异地存储)。
生产环境推荐采用“快照+增量+异地归档”的组合:系统盘用快照保证可快速恢复,业务数据用增量备份保证RPO,关键数据库再做冷备或主从复制并将备份异地存储。
恢复流程应当可自动化、可重复并且有明确的SOP(步骤、负责人、回滚点)。
建议步骤:1) 定位故障与选择恢复点;2) 若使用快照则在目标实例上还原快照并校验引导;3) 恢复数据库到指定时间点并进行一致性校验;4) 恢复应用配置与外部依赖(如负载均衡、DNS);5) 执行健康检查与流量切换。
使用Ansible、Terraform、Packer等工具把恢复步骤脚本化,并在非生产环境定期跑一次全流程恢复验证,确保脚本和镜像是可用的。
故障演练要考虑网络延迟、带宽限制与供应商快照API差异。台湾VPS(尤其是小型VPS)可能没有标准化快照或异地复制功能,演练前需确认可用性。
演练分为子系统恢复演练(数据库恢复、存储恢复)和全站DR演练(从冷备或异地站点切换)。建议关键业务每季度至少做一次子系统演练,每半年做一次全流程演练。
演练时记录时间点(恢复时间、验证时间)、失败点与人为误操作日志,模拟真实故障场景(磁盘损坏、主机不可达、网络中断),并确保DNS TTL和LB切换策略已验证。
备份存储应分级:热备用于快速恢复,冷备用于长周期保留。依据业务重要性定义不同保留策略。
示例策略:关键数据热备(快照+本地增量),保留7-30天;业务日志和审计数据归档到对象存储,保留90天至多年;长期合规数据可转为冷归档降低成本。
备份数据应启用压缩与加密,并尽量设置异地复制(不同可用区或不同供应商),以防单点故障或机房级事件。同时考虑恢复成本(带宽与时间)在策略中体现。
监控需要覆盖备份任务状态、快照成功率、备份窗口、校验结果和恢复演练的关键指标(RTO、RPO达成情况)。
实现端到端自动化:1) 定时任务(cron或云任务服务)触发备份;2) 备份成功后自动校验(校验checksum/恢复到临时环境);3) 失败自动重试并上报;4) 演练脚本化并纳入CI/CD管道内定期执行。
建立备份与演练的SLA、运行手册与责任人,故障演练后必须形成事件复盘(记录问题、改进措施、更新文档及自动化脚本),并把复盘结果回写到监控和流程中,形成闭环改进。