服务状态与日志
sudo systemctl status kafka,未运行则启动:sudo systemctl start kafka。/var/log/kafka/server.log,重点关注错误、IO异常等。配置文件验证
/etc/kafka/server.properties:
listeners和advertised.listeners配置是否正确。zookeeper.connect指向正确的ZooKeeper集群。log.dirs是否可写,空间是否充足。系统资源监控
top/htop查看CPU、内存占用,df -h检查磁盘空间,iostat监控磁盘I/O。ping和telnet测试节点间通信。集群状态与工具
kafka-topics.sh查看主题分区分布,kafka-consumer-groups.sh检查消费者偏移量。cmdline-jmxclient.jar)监控Broker指标(如副本同步状态、吞吐量)。高级排查
-Xloggc:/path/to/gc.log,排查内存问题。tcpdump定位网络延迟或丢包问题。性能参数调优
num.partitions:根据消费者并行度设置,建议为消费者数量的2-3倍。batch.size:增大批处理大小(如128KB-1MB),减少网络请求。linger.ms:适当延长发送间隔(如100ms),提升吞吐量。compression.type:启用snappy或lz4压缩,降低传输开销。fetch.min.bytes:增大拉取数据量(如1KB),减少请求频率。acks:设置为all确保数据可靠性,或1提升吞吐量。硬件与系统优化
-Xms4G -Xmx4G),避免频繁GC。集群架构优化
监控与运维
log.retention.hours或log.retention.bytes控制保留策略。参考来源: