debian

Debian Syslog性能监控指标

小樊
38
2025-12-27 02:49:18
栏目: 智能运维

监控目标与总体思路

核心指标清单与采集方法

指标 含义 采集方法 告警建议
日志生成速率(条/秒、KB/s) 应用与内核产生日志的强度 对 /var/log/syslog 做按秒聚合计数与时长统计;journalctl 按时间窗口统计 突增超过基线 2–3σ 或持续高位
采集器吞吐与队列 rsyslog/syslog-ng 的处理与排队 观察进程指标(CPU、RSS)、队列/积压(如 rsyslog imjournal 队列)、系统负载 队列持续增长或处理时延明显变长
处理时延(端到端) 事件产生到落盘/外发耗时 在日志中注入时间戳(应用/rsyslog 模板),计算接收与落盘时间差 P95/P99 P95 超过 1–2 秒 或抖动增大
丢失与重试 网络/磁盘/磁盘满导致的丢日志 监控 rsyslog 的 discarded/overflow、连接失败重试、磁盘 inode/full 告警 出现丢弃/重试或磁盘满告警
磁盘与 I/O 写日志对磁盘的压力 采集 await、svctm、util、写速率 等(如 iostat),并监控分区使用率 util 持续 >80%、await 明显升高
资源占用 采集器自身消耗 采集 rsyslog/syslog-ng 的 CPU%、内存 RSS、文件句柄数 RSS 持续增长、句柄逼近上限
传输可靠性 本地/远程传输成功率 统计 连接失败、超时、重连 次数与成功率 失败率上升或重连频繁
日志完整性与保留 是否按策略保留与可读 校验 /var/log 分区使用率、logrotate 成功与失败计数 使用率 >80%、轮转失败

采集与可视化实现

阈值与告警建议

实践要点

0
看了该问题的人还看了