Linux Minimal系统故障排查指南
小樊
36
2025-11-22 13:56:37
Linux Minimal 系统故障排查指南
一 快速定位与通用流程
- 明确现象与范围:是无法启动、网络不通、SSH 失败、磁盘占满还是服务异常。优先记录屏幕报错与出现时间点。
- 查看日志:使用dmesg、journalctl、以及**/var/log/** 下的关键日志(如 syslog、messages、auth.log)定位内核、系统与服务层面的错误。
- 检查资源:top/htop 看 CPU/内存,df -h 与 du -sh 查磁盘空间,mount 看挂载状态。
- 检查网络:ip addr、ping、traceroute、ss/netstat 判断连通性与端口监听。
- 检查进程与服务:ps aux、systemctl status 确认关键服务是否运行及失败原因。
- 检查软件包与依赖:apt(或 yum/dnf)确认安装状态与依赖完整性,必要时修复或重装。
- 变更前先备份:重要配置文件修改前先备份,变更后用systemctl restart 验证。
二 启动与引导修复
- 出现 GRUB Rescue 或 “Minimal BASH-like line editing is supported”:
- 在 GRUB 命令行手动引导:
- 设定根分区:set root=(hd0,1)(示例,按实际调整)
- 指定内核与根:linux /boot/vmlinuz-<版本> root=/dev/sda1 ro
- 指定 initramfs:initrd /boot/initrd.img-<版本>
- 引导:boot
- 进入系统后修复 GRUB:
- 安装引导到 MBR/ESP:grub-install /dev/sda
- 生成配置:update-grub
- 无法手动引导时,用 Live CD/USB 启动,安装并使用 boot-repair 一键修复。
- 进入单用户模式修复(维护模式):
- CentOS 7:GRUB 内核行末尾添加 single,按 Ctrl+X 启动;
- CentOS 6:编辑 kernel 行添加 single,按 b 启动;
- 用途:重置root 密码、修复fstab错误、临时关闭有问题的服务。
三 网络与 SSH 故障
- 常见网络不通(以 CentOS Minimal 为例):
- 网卡未自启:编辑 /etc/sysconfig/network-scripts/ifcfg-(如 ifcfg-eth0 或 ifcfg-eno16777736),将 ONBOOT=yes;
- 静态地址示例:
- BOOTPROTO=static
- IPADDR=192.168.2x.111
- PREFIX=24(或 NETMASK=255.255.255.0)
- GATEWAY=192.168.2x.2
- DNS1=8.8.8.8,DNS2=114.114.114.114
- 重启网络:systemctl restart NetworkManager 或 service network restart;
- 若 yum 仍失败,检查 /etc/resolv.conf 是否写入可用 DNS。
- Ubuntu/Debian Minimal:
- 使用 ip addr 确认接口状态与地址;
- 排查路由与连通性:ping 网关、ping 8.8.8.8、traceroute;
- 检查监听与防火墙:ss -tulnp,必要时临时停用防火墙验证。
- SSH 无法登录:
- 编辑 /etc/ssh/sshd_config:
- PermitRootLogin yes(按需开启)
- PasswordAuthentication yes(密码登录)
- 重启服务:service sshd restart 或 systemctl restart ssh。
四 软件包与依赖修复
- Debian/Ubuntu Minimal:
- 修复缺依赖:sudo apt-get install -f
- 更新索引与升级:sudo apt-get update && sudo apt-get upgrade
- 检查已装包与文件:dpkg -l、apt-cache policy
- RHEL/CentOS Minimal:
- 清理与修复:yum clean all && yum makecache
- 修复缺依赖/损坏:yum -y install 或 dnf --refresh install
- 通用建议:优先使用官方仓库与签名校验,避免混用不兼容源。
五 磁盘 进程 与安全加固
- 磁盘与文件系统:
- 空间告警:df -h、du -sh * 定位大文件/目录;
- 文件系统错误:在救援/单用户下对分区执行 fsck -y <分区>(务必卸载或只读挂载)。
- 资源与进程:
- 实时监控:top/htop、vmstat、iostat、iotop;
- 异常进程:ps aux --sort=-%cpu | head,必要时 kill 并排查根因。
- 安全与访问控制:
- 排查登录与提权:/var/log/auth.log(SSH 登录、sudo 使用);
- 防火墙策略:iptables -L -n 或 firewall-cmd --list-all;排查策略是否阻断业务端口。