1.
第一时间由值班人员(NOC/值班工程师)确认报警来源:监控告警、客户报障或第三方通知。先在监控平台(Prometheus/Zabbix/CloudWatch等)查看告警详情并截取关键告警日志截图。
小分段:确认受影响范围(IP段、服务、租户)、故障时间、初步严重度(P0/P1)。记录告警ID、启动应急工单并通知当班负责人。
2.
立即触发应急群(企业微信/Slack/Teams)并按照SOP@角色@级别发送:值班、网络、安全、应用、客户经理、供应商(机房厂商)。建立电话备份链路,保证关键人员可达。
小分段:在群内固定格式汇报:时间/影响/初步定位/已采取动作/下一步计划。指定一名协调人(Incident Commander)。
3.
按优先级排查:先看机房电力与机柜UPS告警,再看Top-of-Rack交换机与光纤链路状态,最后看主机与虚拟交换层。使用ping/traceroute、接口统计、链路同步日志排查。
小分段:若为外部链路问题,联系带宽供应商与中转机房;若为机房断电或空调异常,联系机房值班与物理运维团队。
4.
根据影响范围与RTO/RPO策略决定:若单点机房故障且有异地热备/冷备,按预案执行DNS/BGP或负载均衡切换;若无备份,优先做临时容量迁移(云上扩容或第三方机房租柜)。
小分段:切换前准备清单:备份快照、数据库复制状态、会话保持策略、SSL证书、IP白名单调整说明。
5.
DNS切换:降低TTL(若事前未设置则需注意生效时间),在备机房或云端上线对应服务并逐条记录A/AAAA/CNAME变更,使用DNS providers API完成批量更新,核对解析生效(dig/nslookup)。
小分段:BGP切换:与网络工程师和上游ISP联动,准备好ASN、公告策略、路由过滤表。实施宣布/撤回路由并观察路由表收敛与流量走向(使用bgpmon或looking glass核验)。
6.
在L7/L4负载均衡器上下线故障机,确保会话迁移策略与粘性会话处理;对于反向代理(Nginx/HAProxy/Envoy),使用逐台下线、观察无新连接后物理下单,以减少会话丢失。
小分段:如使用云LB,调整后要核验健康检查配置和后端池健康状态,确保健康率满足上线阈值。
7.
切换或回收过程中优先保证数据库主从一致性。不要在未完成binlog/GTID同步时进行主从切换。必要时使用只读模式、暂停写入或应用层限流以避免数据不一致。
小分段:恢复后执行数据校验脚本(行数、校验和、关键表抽检),并记录修复操作与时间点。
8.
每一次切换都必须有明确回滚点:快照时间、DNS旧值、BGP撤回策略、负载均衡后端列表。回滚操作需在应急群审批后执行并事先向客户通知可能影响。
小分段:回稳后进行流量渐进恢复(灰度或分批)并持续监控关键指标30-60分钟确认稳定。
9.
列出责任矩阵(RACI):Incident Commander(负责决策/对外汇报)、NOC(监控与初步定位)、网络工程(BGP/DNS/链路)、系统运维(上/下线主机)、DBA(数据库一致性)、安全工程(安全事件判断)、客户经理(客户沟通)。
小分段:所有操作必须在工单中记录执行者、时间、命令及回滚点;事后复盘由Incident Commander召集并产出处置报告与改进计划。
10.
对接机房供应商需准备机房工单号、机柜编号、故障现象、截图及紧急电话;对带宽或光纤供应商准备链路层面日志和BGP会话信息,必要时开启现场支撑或交换机Console访问权限。
小分段:记录供应商响应时间与处理步骤,为事后SLA评估与索赔留证据。
11.
上线后逐项核验:服务可达性(HTTP 200/握手)、业务关键路径(下单/支付/登录)、数据库延迟、错误率、延迟分布、链路带宽利用率。至少观察30分钟并保存监控曲线。
小分段:对外发布恢复公告,向客户描述影响范围、恢复措施及后续补偿或改进计划。
12.
恢复完成后72小时内完成复盘:收集所有操作日志、监控告警、供应商响应记录,按事件时间线还原过程,定位根因并提出预防措施(改进监控、增加冗余、演练计划)。
小分段:生成RCA报告并分配整改责任与完成时限,定期跟踪整改进度直至关闭。
13.
回答:首先确认自身路由公告是否被上游正确接收(使用上游提供的looking glass或BGP监控工具),查看AS路径与前缀是否被过滤;检查本侧防火墙/ACL是否阻断新路径;若上游未收敛,联系ISP重启会话或调整社区标签,必要时回滚到原始路由并采用DNS或临时反向代理做快速流量切换。
14.
回答:先恢复基础设施:电力->网络->存储->计算。恢复电源与UPS,启动交换机并确认链路、VLAN与BGP恢复;确保存储阵列健康后再按依赖顺序启动数据库实例与应用服务,逐步上线并验证数据一致性与服务可用性。
15.
回答:在SLA和应急预案中明确RACI矩阵与工单触发点,规定外包负责的具体清单(例如机柜维护、硬件更换)和内部必须保留的权限(如路由公告、数据库切换)。事件发生时由Incident Commander协调并记录所有决策与时间点,任何延误或失误按合同与KPI进行追责与优化。