centos

centos kafka如何故障排查

小樊
32
2025-12-13 15:41:10
栏目: 智能运维

CentOS 上 Kafka 故障排查步骤

一 快速定位流程

二 常见故障与修复对照表

症状 快速检查 修复建议
启动失败,提示 Failed to start Kafka Server 查看 server.log;检查 Zookeeper 状态与连接串 启动/修复 Zookeeper;校正 zookeeper.connect;必要时查看 /var/log/kafka/server.log 获取细节
启动即退出,日志含 Cannot allocate memory dmesg/日志出现 errno=12 释放内存或降低 KAFKA_HEAP_OPTS(如调小堆),再重启
端口 9092 无法访问或被占用 ss/ netstat 查看 9092;lsof -i:9092 释放占用进程或修改 listeners 端口;放通 firewalld/iptables
日志目录不可用 ls -ld 检查 log.dirs 创建目录并赋权:mkdir -p /path && chown kafka:kafka -R /path && chmod 755 /path
节点加入集群异常,meta 与 broker.id 不一致 查看 logDir/meta.properties 对齐 broker.id 或清理该 logDir 后重启(新节点建议清理)
UnknownHostException/主机名解析失败 getent hosts /etc/hosts 添加 “IP 主机名” 映射
客户端报 TimeoutException/无法获取元数据 本地/远程 telnet 9092 校验 listeners/advertised.listeners 对外可达;放通防火墙;必要时改为 IP 直连
文件句柄/进程数不足导致异常 ulimit -a;/etc/security/limits.conf 提升 nofile/nproc(如 65536),重启会话后生效

以上条目对应到实际报错关键词(如 “Could not connect to Zookeeper”“Address already in use”“Log directory does not exist or is not writable”“Topic not present in metadata after 60000 ms”)可迅速定位并处理。

三 关键配置与网络检查

四 内存与 GC 问题处理

五 系统层面优化与稳定性

0
看了该问题的人还看了