1.
初步确认与安全评估
到现场或远程接手前先做三件事:一是确认是否为客户或运维授权人员;二是查看监控告警(CPU、内存、磁盘、网络、进程、应用)并记录告警时间与ID;三是评估是否存在安全事故(异常登录、端口扫描、DDOS)。记录所有证据(截图、告警ID、syslog)以便后续分析与通知。
2.
远程连通性基本检查(优先)
通过运维工作站执行:ping <目标IP>、traceroute <目标IP>(或 tracert),确认丢包与路径;ssh -v 用户@服务器查看握手与认证失败信息;若无法SSH,尝试KVM/IPMI或机房远程控制台登录。记录超时、RST、ICMP结果。
3.
主机网络与接口检查
登录后运行:ip a 或 ifconfig 查看接口状态,确认IP、网关、子网掩码是否正确;route -n 或 ip route 检查路由;ethtool ethX 检查链路速率/双工;查看防火墙:iptables -L -n 或 nft list ruleset,若防火墙误阻可临时添加允许规则并记录变更。
4.
服务与进程排查流程
列出监听端口:ss -tulnp 或 netstat -tulnp,确认目标服务端口是否在监听;查看服务状态:systemctl status
;若服务异常,先尝试重载配置:systemctl reload ,无法恢复再做重启:systemctl restart ,每步记录时间与日志片段。
5.
日志审查与定位
查看系统与应用日志:journalctl -u -n 200 --no-pager,tail -n 200 /var/log/syslog 或 /var/log/messages,/var/log/nginx/error.log 等,按时间关联监控告警时间点定位错误堆栈或异常事件。若日志过大,使用grep过滤关键字(ERROR、FAIL、segfault)。
6.
磁盘与文件系统检查
df -h 检查磁盘使用,du -sh /var/log/* 定位大文件;smartctl -a /dev/sdX 检查硬盘SMART状态(需安装smartmontools);若为RAID,查看软阵列:cat /proc/mdstat 或 megacli/StorCLI 输出。磁盘问题若严重,先做只读挂载或备份重要数据再做修复。
7.
硬件故障与BMC操作
通过IPMI/KVM登录BMC(iLO、iDRAC、IMM)检查电源、风扇、温度与事件日志(SEL)。若操作系统瘫痪,可使用虚拟介质重启到救援系统,或先尝试Graceful Shutdown:systemctl poweroff,然后从BMC执行Power Cycle。记录BMC操作时间与执行人。
8.
机房与上游网络协调流程
若怀疑链路或机柜问题,立即通知机房值班工程师提供交接单与远程手操作(如重插网线、重启交换机端口、检查PDU电源),并要求提供机房巡检单与摄像头截图。若是上游ISP问题,联系上游并获取故障单号与预计恢复时间。
9.
应急恢复与回滚步骤
当定位到变更导致故障(配置、部署、升级)时,优先回滚至最近稳定版本并验证:git revert/部署回滚脚本或恢复快照(LVM快照、VM快照)。若必须重装或更换硬盘,先做完整备份(rsync、dd、备份到远程存储),并在维护窗口内执行。
10.
通知、记录与后续分析
每次应急处理过程应遵循模板通知:问题描述、影响范围、临时措施、下一步计划、负责人、预计恢复时间。变更后24小时内监控并记录恢复验证结果,撰写Post-mortem 包含根因分析(RCA)与防范措施(如增加监控、巡检脚本、冗余设计)。
11.
应急联系人设置建议与模板
建立三层联系方式:第一层(现场或一线工程师)、第二层(系统/网络专家)、第三层(厂商/机房/上游ISP)。对每层设定:姓名、职务、手机(可接收SMS)、座机、邮箱、替代联系人。建议轮值表(24x7),并使用群组告警(SMS + 邮件 + PagerDuty/OPSGENIE)。
12.
应急联络矩阵与消息模板
准备消息模板:1) 初始告警模板包含故障时间、影响范围、紧急联系人、临时措施;2) 升级通知模板包含故障进展与责任人;3) 恢复通知含恢复时间与后续跟进;定期演练联络流程并核对联系电话是否有效。
13.
常见操作示例命令汇总
建议保存一份常用命令清单:ping/traceroute、ssh -v、ip a/route、ss -tulnp、systemctl status/restart、tail/journalctl、df/du、smartctl、ipmitool -I lanplus -H -U -P sol activate,供当班工程师快速调用并抄送事件记录。
14.
问:如果服务器无法远程登录但BMC也不可用,我该怎么办?
答:首先立刻通知机房工程师进行物理检查(机柜状态、指示灯、PDU供电),请求现场远程手(remote hands)进行硬重启或串口连接;同时联系机房并提供工单以确保有人到场;若有热备或冷备机,启动故障转移并告知客户。
15.
问:应急联系人无法接通,有没有快速替代流程?
答:启动预设的替代联系人顺序(矩阵中第二、第三位),并在告警群/短信群组发出紧急通知;如果备用人员也无法接通,则按SLA启动自动化故障转移或调用机房远程手执行最低恢复操作,事后补录沟通记录。
16.
问:如何避免同类故障再次发生的关键措施?
答:实施根因分析并把结果转化为可操作项:增加冗余(双网卡、双电源、跨机房备援)、完善监控与告警阈值、定期硬件健康检查、轮值与联络演练、变更前先做回滚计划与数据备份,最后把这些措施写入SOP并做定期审查。
来源:台湾 服务器托管 常见故障处理流程与应急联系人设置建议