linux

Linux下Kafka监控有哪些要点

小樊
34
2025-11-23 10:48:03
栏目: 智能运维

Linux下Kafka监控要点

一 监控层次与核心目标

二 关键指标与阈值建议

维度 关键指标 说明与建议
主机 CPU使用率Load 持续接近或超过**80%**需排查热点与分区布局
主机 可用内存Page Cache 避免频繁换页,关注系统可用内存与缓存命中
主机 磁盘IOPS/吞吐/await 写放大或await升高常见于刷盘/压缩/副本同步压力
主机 网络吞吐/丢包/重传 吞吐受限或重传上升影响复制与消费
Broker 入/出字节速率、请求速率 与业务峰值匹配,突降可能预示阻塞
Broker 请求耗时分解(Queue/Remote/Local/Response) 定位瓶颈在网络、I/O、处理哪个环节
Broker 网络/请求队列长度 队列持续增长提示后端处理跟不上
Broker 活跃Broker数/Controller存活 异常掉线或Controller频繁切换需告警
主题/分区 分区数/Leader分布 均衡分布避免热点,扩容时关注分区再均衡
主题/分区 ISR数量与收缩频率 ISR收缩频繁或UnderReplicated需关注副本同步
主题/分区 日志目录容量 接近磁盘阈值会触发限流/写入失败
消费者组 消费速率、提交偏移量 消费速率持续低于生产需排查Lag与再均衡
消费者组 Lag(总量与分区最大Lag) 以业务可容忍延迟设定阈值,分区最大Lag优先
JVM GC次数/停顿时间 Full GC或长停顿会放大请求延迟与超时
JVM 堆使用 堆过大/过小均可能引发GC或OOM风险
上述指标可通过JMX与Kafka自带工具获取,配合kafka_exporter暴露给Prometheus/Grafana进行可视化与告警。

三 常用工具与采集方式

四 告警规则与排障路径

五 配置与容量优化建议

0
看了该问题的人还看了