1.
步骤1:确认是否为本地网络问题。用本地机器执行 ping 公网 IP(例如 8.8.8.8),并尝试访问其他网站。
步骤2:远程 SSH 服务器(若可),执行:ping -c 4 8.8.8.8,traceroute 8.8.8.8(Windows 用 tracert)。若 ping 成功但外网无法访问,继续下一步。
步骤3:检查路由与网口状态:ip addr show;ip route show;ethtool eth0(或对应网口)。若网卡 DOWN 用 ip link set eth0 up。
步骤4:若路由无问题,查看防火墙:iptables -L -n;ufw status;firewalld 状态。临时放行规则可用 iptables -I INPUT 1 -p tcp --dport 80 -j ACCEPT(测试后记得回滚)。
2.
步骤1:在本地和服务器分别用 dig +short example.com 或 nslookup example.com 检查解析结果。
步骤2:若服务器解析异常,查看 /etc/resolv.conf 是否指向正确 DNS 服务器;可以临时替换为 8.8.8.8 进行测试。
步骤3:若 DNS 解析正确但域名指向错误 IP,登录域名注册商/解析平台,核对 A 记录与 TTL,确认是否为缓存问题:清空本地 DNS 缓存(Windows ipconfig /flushdns,Linux systemd-resolve --flush-caches)。
3.
步骤1:本地或第三方站点(例如 ping.pe)检测端口是否开放;服务器上用 ss -tulpn 或 netstat -tulnp 查看服务绑定的端口与进程。
步骤2:确认服务进程是否启动:systemctl status nginx(或 apache、mysqld)。若未启动,用 systemctl start nginx 并查看 journalctl -u nginx -n 200。
步骤3:若进程崩溃,查看具体错误日志(/var/log/nginx/error.log、/var/log/mysql/error.log),根据错误信息调整配置并重启。
4.
步骤1:df -h 查看分区使用率;df -i 查看 inode 使用;du -sh /var/log/* 找出大文件。
步骤2:清理日志:logrotate -f /etc/logrotate.conf;手动清除老旧日志(如 /var/log/*.gz),或 mv 大文件 到临时目录后重启相关服务。
步骤3:若必须快速释放空间,清理缓存:apt-get clean(Debian/Ubuntu)或 yum clean all(CentOS),并删除无用旧内核:rpm -qa 'kernel*' 并慎重删除。
5.
步骤1:使用 top 或 htop 观察占用最高的进程;ps aux --sort=-%mem | head -n 10 查看内存占用。
步骤2:若单个进程占用异常,先尝试重启该服务:systemctl restart 服务名;若是内存泄漏导致多服务异常,可临时启用或扩大 swap:fallocate -l 2G /swapfile; chmod 600 /swapfile; mkswap /swapfile; swapon /swapfile。
步骤3:长期解决为定位内存泄漏(使用 pmap、valgrind 或应用层日志)并修复代码或调整服务配置。
6.
步骤1:查看 systemctl status 与 journalctl -u 服务名 -n 200,定位崩溃前的异常日志。
步骤2:启用更详细日志(增加应用的 debug 级别),复现问题并记录时间戳,结合 top/iostat 在崩溃时段观察系统资源状态。
步骤3:若是配置错误,回滚到已知良好配置;若是代码错误,收集 core dump(配置 ulimit -c unlimited 并使用 coredumpctl 或 gdb 分析)。
7.
步骤1:使用 mtr 目标域名(mtr -rw target)追踪延迟和丢包的跃点,定位是本地、ISP 还是到韩国机房链路问题。
步骤2:若链路在数据中心/托管商处出现丢包,准备 traceroute/mtr 的截屏与时间戳,提交给机房 NOC。若是服务器网卡,使用 ethtool -S eth0 查看错误计数。
步骤3:临时缓解可通过调整 TCP 参数(例如 /etc/sysctl.conf 增加 net.ipv4.tcp_tw_reuse)或切换到备用线路/内网出口。
8.
步骤1:若无法远程 SSH,使用托管商提供的控制台/KVM 登录,查看系统在控制台的输出信息,是否卡在 grub、文件系统错误或引导失败。
步骤2:进入救援模式(rescue mode),挂载原系统盘:mount /dev/sda1 /mnt/sysroot,修复 fstab、修复 grub(grub2-install /dev/sda),或 chroot /mnt/sysroot 后执行修复命令。
步骤3:必要时请求机房替换硬盘或 NIC,并根据 SLA 提交故障单,附上 console 输出与故障复现步骤。
9.
步骤1:提前准备一套“恢复脚本”:包含检查脚本(网络、端口、服务、磁盘、内存)、一键重启服务脚本与日志归档脚本。
步骤2:启用并定期测试备份策略(数据库热备、快照备份),并验证备份可恢复性。记录机房/供应商的紧急联系人与工单流程。
步骤3:建立监控与告警(Prometheus+Alertmanager, Zabbix 或云商监控),设置关键阈值并配置短信/邮件/钉钉报警以便第一时间响应。
10.
答:首先用外部工具(如 ping、traceroute、mtr)检测公网连通性;其次尝试使用托管商控制台/KVM 登录查看控制台输出;再查看监控最近的心跳与 ping 时间线;若控制台可达但 SSH 无反应,可能是 SSH 服务或防火墙问题(在控制台上检查 systemctl status sshd、iptables 规则);若控制台也无响应,通常是主机死机或硬件问题,应提交工单请求现场介入。
11.
答:先登录服务器查 df -h 找到满的分区,定位大文件(du -sh /* | sort -h),临时清理非关键文件(/tmp、缓存、旧日志),或移动大文件到另一分区/临时挂载的远程存储;重启受影响服务(systemctl restart nginx/mysqld);同时启动 logrotate 并调整 /etc/logrotate.conf;之后分析根本原因(日志膨胀、备份未清理等)并实施长期修复。
12.
答:使用 mtr 连续运行并保存结果(mtr -rw -c 100 目标),记录时间戳、丢包及延迟峰值;用 tcpdump 在多个时间点抓包(tcpdump -i eth0 host x.x.x.x and port 80 -w capture.pcap),并提供给机房;同时提供监控告警图表、用户影响时间窗与业务受损描述。机房通常会根据这些证据排查链路或交换设备问题,并在 SLA 范围内给出处理进度。