Linux系统故障排查通用方法(适用于“Dopra”相关场景)
若“Dopra”为Linux系统或服务的误写,以下是通用的故障排查步骤,覆盖系统状态、网络连接、资源使用等核心场景:
系统日志是排查故障的“第一线索”,可通过journalctl命令查看近期系统事件。例如:
journalctl -n 100:显示最近100条日志条目;journalctl -u <服务名>:查看指定服务(如httpd、docker)的日志;journalctl -b:查看本次启动以来的日志。ps aux命令列出所有用户的进程详情(包括CPU、内存占用);top或htop命令动态查看进程状态(按M排序内存占用,按P排序CPU占用);systemctl status <服务名>(如systemctl status sshd)确认服务是否运行正常,若未运行可使用systemctl start <服务名>启动。网络故障是常见诱因,需逐步验证:
ping <目标IP/域名>检查与目标主机的连通性(如ping 8.8.8.8);traceroute <目标IP>(或tracert on Windows)查看数据包传输路径,定位网络中断点;ss -tuln(或netstat -tuln)查看系统监听的端口,确认目标端口是否开放;iptables -L -n(或ufw status)检查防火墙是否拦截了所需端口(如80、443)。资源不足(CPU、内存、磁盘)会导致系统缓慢或服务崩溃,需用以下工具监控:
top(实时查看进程资源占用)、vmstat 1(每秒刷新系统级资源统计,如CPU、内存、IO);df -h查看各文件系统的磁盘使用情况(重点关注Use%列,若超过80%需清理);iostat -x 1查看磁盘的读写负载(%util接近100%表示磁盘繁忙)。若系统无法启动或出现“文件系统错误”,需用fsck命令修复:
fsck /dev/sdXN(如fsck /dev/sda1,X为磁盘字母,N为分区号),添加-y参数自动修复错误;xfs_repair /dev/sdXN命令修复。在多机部署环境中,可将故障主机的配置(如/etc/hosts、/etc/sysconfig/network-scripts/ifcfg-eth0)、软件版本(如rpm -qa | grep <软件名>)与正常主机对比,快速定位配置差异或版本不兼容问题。
strace -p <PID>跟踪指定进程的系统调用,查看进程卡在哪一步(如strace -p 1234);lsof -i :80查看占用80端口的进程,用lsof /var/log/messages查看打开日志文件的进程;atop(记录历史资源使用)、nmon(实时监控CPU、内存、磁盘、网络)进行深度分析。若所有方法均无效,可尝试重启服务(systemctl restart <服务名>)或主机(reboot),但需注意:
若“Dopra”为特定应用或项目,建议提供更多上下文信息(如错误日志、应用类型),以便进一步针对性排查。