如何监控Debian分卷的状态
小樊
45
2025-11-15 03:13:26
监控 Debian 分卷状态的实用方案
一 快速巡检命令
- 查看已挂载分卷的空间与 inode:使用 df -hT -i,关注 Use% 与 IUse% 是否接近 100%。示例:df -hT -i。
- 查看块设备与挂载关系:使用 lsblk,确认设备是否存在、是否挂载到预期目录。示例:lsblk。
- 查看分区表与容量:使用 sudo fdisk -l 或 sudo parted -l,核对分区大小与类型。
- 查看磁盘健康(S.M.A.R.T.):安装并使用 smartctl,示例:sudo apt-get install smartmontools;sudo smartctl -a /dev/sda;健康状态看 SMART overall-health self-assessment test result。
- 查看 I/O 负载与性能:安装并使用 iostat(来自 sysstat),示例:sudo apt-get install sysstat;iostat -x 1(关注 %util、await、svctm、r/s、w/s)。
- 定位大目录与热点文件:使用 du -sh /path 或交互式 ncdu /path(sudo apt-get install ncdu)。
- 实时 I/O 进程排行:使用 iotop(sudo apt-get install iotop)。
- 内核与设备事件:使用 dmesg | grep -i sda 查看磁盘相关错误与告警。
二 LVM 专用监控
- 安装 LVM 工具:sudo apt-get install lvm2。
- 查看物理卷/卷组/逻辑卷状态:
- 物理卷:pvs、pvdisplay(关注 PV Size、Free)。
- 卷组:vgs、vgdisplay(关注 VG Size、Free PE / Size)。
- 逻辑卷:lvs、lvdisplay(关注 LV Size、Attr(如 o=open、s=snapshot、p=pvmove 等))。
- 容量扩展示例(在线扩容,文件系统需后处理):
- 扩展 LV:lvextend -L +20G /dev/vg0/root
- 扩展 ext4 文件系统:resize2fs /dev/vg0/root
- 扩展 xfs 文件系统:xfs_growfs /mount/point
- 容量缩容要点(高风险,务必先备份):
- 仅部分文件系统支持在线缩减,XFS 不支持;ext4 需先离线检查并缩小文件系统,再缩小 LV。
- 建议流程:umount → e2fsck -f → resize2fs → lvreduce → mount → 复核。
三 自动化监控与告警
- 轻量本地监控:使用 Monit(sudo apt-get install monit),配置对 df 阈值与 smartctl 健康状态的检查,支持邮件/脚本告警。
- 企业级监控:部署 Zabbix/Nagios,通过 UserParameter 采集 df、lvs、smartctl、iostat 等指标,设置触发器与通知。
- 可视化与指标栈:使用 Prometheus + Node Exporter + Grafana,Node Exporter 提供磁盘/文件系统指标,Grafana 配置面板并设置阈值告警。
四 完整性与健康检查
- 文件系统一致性:使用 fsck(按文件系统类型选择前端,如 fsck.ext4),注意多数场景需先卸载;对可疑设备可做只读探测或离线检查。
- 坏块扫描:使用 badblocks 检测坏扇区,可与 fsck 配合;耗时较长,建议在维护窗口进行。
- S.M.A.R.T. 自检:使用 smartctl -t short/long /dev/sda 发起自检,完成后用 smartctl -a 查看结果;也可用 gsmartcontrol 图形界面查看与执行测试。
五 建议的监控阈值与处置
- 容量阈值:文件系统 Use% ≥ 80% 预警、≥ 90% 严重;IUse% 接近 100% 同样需处理(大量小文件导致)。
- I/O 阈值:%util 持续 ≥ 90% 表示设备饱和;await 明显升高提示队列拥堵;结合 svctm/r/s/w/s 定位读/写瓶颈。
- 健康阈值:smartctl 健康状态非 PASSED 即告警;出现 Reallocated/Pending 扇区计数增长需尽快备份并更换磁盘。
- 处置顺序:先定位占用(du/ncdu)→ 清理或归档 → 扩容(LVM/文件系统)→ 复核阈值与告警是否恢复。