1. 前置准备与信息清单
准备并保存:机房合同/SLA、设备清单、公网/内网IP、BMC/IPMI/iLO/KVM 访问账号、带宽和链路提供商联系单、机房当班联系方式(电话/邮件/工单系统)、关键应用恢复手册。确保存取权限(SSH 密钥、Console 账号)、紧急开箱/硬件交换流程已签字确认。
2. 日常巡检与快速诊断命令
日检清单包括:ping -c 4
、traceroute -m 30 、ss -tuln / netstat -tulpn、df -h、iostat -x 1 3、top 或 htop、docker ps / crictl ps、journalctl -u -n 200。判断阈值:丢包>1%/延迟>100ms/CPU>85%/磁盘使用>80%。记录结果并截图附工单。
3. 监控告警分级与工单化
定义级别:P0(全网中断/主服务不可用)、P1(主要业务受影响)、P2(降级但可用)、P3(信息类)。收到告警:1) 立即Ack并在5分钟内开始排查;2) 记录初步诊断(命令结果);3) 若不能在30分钟内恢复,按SLA上报并触发现场支持。
4. 网络故障排查步骤
步骤:1) 本地ping内网网关与外网DNS;2) 如丢包,用traceroute定位跳点;3) 如链路疑似机房侧,联系机房NOC确认交换/光纤告警;4) 检查BGP/路由表(ip route / netstat -rn),必要时重启交换端口或申请光纤切换;5) 记录变更并回退方案。
5. 主机宕机与硬件问题处理
步骤:1) 通过BMC/IPMI查看电源/温度/日志;ipmitool -I lanplus -H -U -P power status;2) 若宕机尝试soft power cycle:ipmitool power reset;3) 仍不可用申请机房现场技术上电/更换故障模块;4) 如怀疑磁盘故障,检查smartctl -a /dev/sdX 并按RAID文档替换并重建。
6. 服务层(应用/数据库)故障处置流程
步骤:1) 查看服务日志(journalctl、/var/log/、应用日志)定位异常;2) 若是资源引起,优先扩容或清理缓存(清理 temp、重启缓存服务);3) 尝试平滑重启 systemctl restart 并观察;4) 若是新版本导致回退,按回滚步骤恢复到上一个稳定版本,记录变更并在低峰期复测。
7. 备份与数据恢复操作指南
核查备份:确认最近一次成功备份时间与完整性(校验MD5/校验和)。恢复步骤:1) 在隔离环境先做恢复演练;2) 恢复数据库使用点时间恢复(例如 MySQL binlog 恢复命令),3) 恢复后验证数据一致性并执行应用回归测试;4) 记录恢复时长和丢失窗口,告知业务与客户。
8. 变更管理与责任划分
明确职责:机房/带宽提供方负责物理机、机柜电源、交换网络与机房网络链路;托管服务商/NOC负责基础网络监控与硬件联动;客户/运维团队负责操作系统与上层应用;如签订托管增值运维则由托管方负责OS与应用。写明工单升级路线:一线NOC→二线工程师→机房现场技术→供应商厂商,与各级响应时限(例如:Ack 15min,现场15-60min,根据SLA)。
9. 日志记录、复盘与持续优化
每次故障结束必须完成RCA(24-72小时内),包含故障时间线、根因、临时缓解与长期方案、责任方和改进措施。将常见故障形成Runbook(步骤、命令、回退点),并定期更新演练频率与告警阈值。
10. 问:遇到韩国机房网络抖动,如何快速定位是机房链路还是上游ISP的问题?
答:第一步在不同节点做ping/traceroute(机房内网网关、本机公网出口、上游边界设备与目标公网),如在机房出口就出现丢包或跳点异常,则联系机房NOC检查交换/上联光口;若在上游边界外出现,提供traceroute证据给ISP,要求回溯链路并提供时间窗口和丢包样本。
11. 问:服务器无法SSH登录,如何在不重装的情况下恢复远程访问?
答:先通过BMC/IPMI的Serial-over-LAN或KVM连接进入控制台,检查sshd状态(systemctl status sshd)、配置(/etc/ssh/sshd_config)及防火墙(iptables/nftables/ufw),恢复配置后重启sshd;若密钥丢失,可临时添加公钥到~/.ssh/authorized_keys 并记录变更。
12. 问:硬盘SMART报错并提示RAID降级,现场替换盘的标准流程是什么?
答:确认故障盘(通过lsblk/megacli/zpool status),将盘标记为下线(RAID管理工具执行offline或remove),通知机房在维护窗内更换物理盘,安装后在RAID控制器或ZFS中执行rebuild/replace,监控重建进度并在完成后验证文件系统完整性与应用状态。
来源:运营维护要点 韩国服务器托管故障处理流程与责任划分