1. 先确认报警来源:监控、客户工单或电话。
2. 收集时间线:首次告警时间、影响范围(所有机房还是单个机柜/机型)、是否有变更记录(部署/配置/升级)。
3. 获取最近的告警截图、关联告警ID、NMS/监控图表(带时间序列)。
2. 判断影响:是否仅某台服务器、某VLAN、某租户或整个韩国机房。
- 若为部分影响,优先定位相关交换机/路由器与上游链路。
- 若全站不可达,启动机房级别应急流程并通知上级、客户。
3. 通过NOC或值班人员检查机柜电源(PDU)、空调与机房总电力。
- 检查PDU面板与交换机/服务器LED(链路灯、风扇、温度)。
- 要求值班人员确认光纤跳线、光模块(SFP)是否松动、更换SFP尝试。
4. 通过KVM或IPMI(iLO/DRAC/IMM)远程登录主机控制台:
- 检查主机是否有Kernel panic、硬件错误或文件系统只读。
- 若远程不可达,要求现场工程师通过物理KVM查看控制台。
5. 在机房边缘设备或受影响主机上依次执行:
- ping <目标IP>(确认丢包/延时)。
- traceroute/tracert <目标>(定位故障跃点)。
- mtr <目标>(长时丢包趋势)。
6. 在路由器上检查路由协议与转发表:
- 查看BGP状态:show ip bgp summary / show bgp summary。
- 检查本地路由表:show ip route / ip route show。
- 确认是否有大范围withdraw或错误的静态路由。
7. 检查接口状态与错误计数:
- show interfaces / ip -s link。
- 关注CRC、丢包、input error、output drops。
- 若错误异常,尝试down/up端口、替换短连接线或更换光模块。
8. 检查MAC表与ARP表:
- show arp / ip neigh。
- show mac address-table。
- 若ARP波动或MAC泛洪,怀疑交换机环路或STP问题,检查STP状态并查看端口镜像。
9. 验证DNS解析与服务:
- dig +short 域名 @本地DNS,dig +trace。
- 检查DHCP是否发放IP(若为VLAN问题)。
- 检查负载均衡器/防火墙策略是否误阻断流量。
10. 必要时在受影响的交换机或主机抓包:
- tcpdump -i eth0 -n -s0 -w /tmp/cap.pcap host X。
- 抓BGP(port 179)、ARP、DHCP等协议。
- 同时收集路由器日志、系统日志(/var/log/messages、dmesg)。
11. 若判断为上游链路或机房核心故障:
- 提供时间线、证据(traceroute、BGP withdraw、抓包)。
- 创建或更新供应商工单,要求对方提供链路告警、维护计划或Q-inventory。
- 在等待期间启用临时绕路或备份链路(BGP prepends、社区标记或静态路由)。
12. 恢复步骤要可回滚并记录:
- 先恢复最小影响范围,验证连通性后逐步扩大。
- 完成后写明根因分析(RCA)、采取的临时/永久措施及预防建议(监控新增、自动告警)。
13. 快速判定指引:
- 全站不可达且BGP大量withdraw:上游或骨干问题。
- 单VLAN影响;ARP/MAC波动:交换机/链路或环路。
- 部分服务器不可达但交换机正常:主机问题或虚拟化网络故障。
14. 问:遇到韩国机房“全站挂掉”时第一步最关键的操作是什么?
15. 答:第一步是确认影响范围并收集证据(监控图、traceroute、BGP状态),同时告知值班/NOC并立即检查电力与上游链路是否有已知维护或告警。
16. 问:现场无法替换硬件时如何快速定位问题?
17. 答:利用远程管理(IPMI/KVM)、抓包与路由协议状态、以及上游运营商的链路状态信息进行判断,必要时临时启用备用链路或BGP策略绕过故障区域。
18. 问:排查过程中如何避免造成更大影响?
19. 答:遵循变更管理,优先做被动检测(抓包/读取日志),对可能改动先在实验环境或非生产链路验证,变更时做好回滚计划并通知相关方。