网络事故复盘模板

事故复盘是 IT 行业（开发、运维、网络等领域）中核心的问题解决与风险控制机制，其核心价值在于从已发生的故障 / 事故中提取可落地的经验，避免重复踩坑，并系统性提升团队与系统的可靠性。结合 IT 工作场景（如服务器宕机、数据泄露、线上 BUG、网络中断等），具体作用可拆解为以下 6 个核心维度，均聚焦 “可落地、可复用” 的实际价值

复盘编号：________ 复盘日期：________ 复盘主持人：________ 参与人员：________

记录人：________ 事故所属业务域：□办公网 □业务网 □外网出口 □云资源 □其他________

一、事故基本信息

项目	详情
事故发生时间	开始时间：____年__月__日__时__分；结束时间：____年__月__日__时__分；总持续时长：________
事故影响范围	1. 受影响用户：□内部员工（约____人） □外部客户（约____人） □特定群体________；2. 受影响业务：□OA系统 □ERP系统 □核心交易系统 □邮件系统 □其他________；3. 影响程度：□完全中断 □部分功能异常 □访问延迟（平均延迟____ms） □数据丢失（约____条）
事故等级	□一级（核心业务中断≥4小时，或造成重大经济损失/声誉影响） □二级（核心业务中断1-4小时，或重要业务中断≥4小时） □三级（重要业务中断1-4小时，或一般业务中断≥4小时） □四级（一般业务中断＜1小时，影响范围有限）

二、事故过程回溯

1. 发现过程

□系统监控告警（告警时间：____，告警内容：____） □用户反馈（反馈时间：____，反馈人：____，反馈内容：____） □运维巡检发现（巡检时间：____，巡检人员：____）；发现人第一时间处理动作：________

2. 处置 timeline

时间节点	参与人	执行动作	动作效果/反馈
____时____分	________	________	________
____时____分	________	________	________
____时____分	________	________	________（事故恢复，业务正常）

3. 最终解决方案

1. 紧急恢复措施：________（如：重启核心交换机、切换备用链路、回滚配置版本、隔离故障设备）；2. 长期优化措施：________（如：升级硬件设备、优化网络拓扑、增加冗余链路）

三、事故原因分析

1. 直接原因

□硬件故障（如：核心路由器电源损坏、交换机端口故障、光纤链路断裂） □软件/配置问题（如：路由配置错误、防火墙策略冲突、系统漏洞被利用、固件版本bug） □外部攻击（如：DDoS攻击、病毒入侵、黑客攻击） □人为操作失误（如：误删配置、误拔线路、违规操作） □环境因素（如：机房断电、温度过高、雷击） □其他________；具体描述：________

2. 根本原因（基于5Why分析法）

提问层级	问题	回答
1Why	为什么会发生该网络事故？	________
2Why	针对1Why的回答，其原因是什么？	________
3Why	针对2Why的回答，其原因是什么？	________
4Why	针对3Why的回答，其原因是什么？	________
5Why	针对4Why的回答，其根本原因是什么？	________（如：运维流程缺失、监控体系不完善、人员技能不足）

四、事故影响评估

1. 业务影响

1. 核心业务中断时长：________，造成交易损失：________元；2. 业务数据影响：□无丢失 □部分丢失（丢失数据类型：________，恢复情况：________） □数据损坏（修复情况：________）；3. 业务流程影响：□临时中断 □流程变更 □需人工补录数据（补录量：________）

2. 成本影响

1. 应急处置成本：________元（如：临时设备租赁、技术支持费用）；2. 故障修复成本：________元（如：硬件更换、软件升级费用）；3. 人力成本：参与处置人数____人，累计工时____小时，折合成本________元

3. 声誉影响

□无明显影响 □内部通报批评 □客户投诉（投诉数量：____起） □外部媒体曝光 □行业声誉受损；后续应对措施：________

五、现有体系不足

1. 监控体系

□监控覆盖不全（未监控到____设备/链路） □告警延迟（延迟____分钟） □告警误报/漏报（误报次数：____，漏报原因：________） □监控指标不精准（缺少____关键指标）

2. 运维流程

□故障响应流程不清晰（响应延迟____分钟） □权限管理混乱（违规操作源于____） □变更管理缺失（配置变更未走审批流程） □应急预案不完善（无对应场景的应急方案）

3. 人员能力

□运维人员技能不足（对____设备/技术不熟悉） □应急处置经验欠缺（初期误判故障原因____次） □跨部门协作不畅（与____部门沟通延迟____分钟）

4. 硬件/软件设施

□设备老化（____设备已使用____年，超过生命周期） □冗余不足（无备用____设备/链路） □软件版本落后（存在已知漏洞____个）

六、改进措施与行动计划

改进类别	具体措施	责任部门/人	计划完成时间	验证方式	当前状态
监控优化	________（如：新增____设备监控、调整告警阈值、增加____指标监控）	________	____年__月__日	________（如：监控系统截图、告警测试报告）	□未开始 □进行中 □已完成
流程完善	________（如：修订故障响应流程、规范配置变更审批、完善应急预案）	________	____年__月__日	________（如：流程文件归档、全员培训记录）	□未开始 □进行中 □已完成
人员提升	________（如：组织____技术培训、开展应急演练、招聘____技能人才）	________	____年__月__日	________（如：培训考核成绩、演练总结报告）	□未开始 □进行中 □已完成
设施升级	________（如：更换____老化设备、新增备用链路、升级软件版本）	________	____年__月__日	________（如：设备采购合同、升级验收报告）	□未开始 □进行中 □已完成

七、复盘总结与经验沉淀

1. 关键结论

1. 本次事故的核心症结：________；2. 解决同类问题的核心要点：________；3. 运维体系中最急需补齐的短板：________

2. 经验教训

1. 技术层面：________（如：需重视设备生命周期管理、核心节点必须部署冗余）；2. 流程层面：________（如：任何配置变更必须走审批并留存记录、应急预案需定期演练）；3. 管理层面：________（如：需加强跨部门协作机制、定期开展技能培训）

3. 知识沉淀

1. 新增/更新文档：□应急预案 □运维操作手册 □监控配置指南 □其他________；2. 案例共享：□内部技术分享会（计划时间：____） □案例库归档（归档时间：____）

八、后续跟进与问责

1. 改进措施跟进机制

1. 跟进责任人：________；2. 跟进频率：□每周 □每月 □关键节点；3. 汇报渠道：□月度运维会议 □专项报告 □直接向____汇报

2. 问责建议（如适用）

1. 责任判定：□人为操作失误 □管理失职 □外部因素 □混合原因；2. 具体问责建议：________（如：内部警告、绩效扣分、技能再培训、调整岗位）

九、签字确认

复盘主持人签字：________ 日期：________

部门负责人签字：________ 日期：________

参与人员签字：________________________________________________