Kafka监控指标主要包括以下几类:
Broker核心指标
- UnderReplicatedPartitions:处于复制状态的partitions数量。
- ActiveControllerCount:活跃的controller数量。
- OfflinePartitionsCount:离线的partitions数量。
- UncleanLeaderElectionsPerSec:未清理领导选举/每秒。
- BytesInPerSec:Kafka的吞吐量。
- BytesOutPerSec:Kafka的吞吐量。
- Disk usage:磁盘使用情况。
- CPU usage:CPU使用情况。
- 网卡入流量:机器网卡入流量。
- 网卡出流量:机器网卡出流量。
Producer核心指标
- 主要监控正常的机器指标和JVM指标,如磁盘使用情况、CPU使用情况等。
Consumer核心指标
- kafka_consumergroup_lag:每个消费者的消息延迟。
- 消费者组延迟等。
集群稳定性配置与监控最佳实践
- 合理进行kafka实例配置,关注磁盘容量和峰值带宽、消息保留时长、动态保留策略等。
- 设置日志配置参数以使日志易于管理。
- 充分利用Apache ZooKeeper。
- 注意主题配置。
- 使用并行处理。
- 带着安全性思维配置和隔离Kafka。
- 通过提高限制避免停机。
- 保持低网络延迟。
- 利用有效的监控和警报。
这些指标可以帮助运维人员及时发现和解决Kafka集群中的问题,确保系统的稳定运行。