以下是在Ubuntu上排查Zookeeper故障的常用操作:
查看日志
/var/log/zookeeper/zookeeper.out 或 dataDir目录(配置文件中指定)。cat /var/log/zookeeper/zookeeper.out 或 tail -f 日志文件,分析错误信息。检查配置文件
/etc/zookeeper/conf/zoo.cfg。dataDir(数据目录权限)、clientPort(端口配置)、myid(集群节点ID)等参数是否正确。验证Java环境
java -version。JAVA_HOME环境变量是否配置正确。检查网络与端口
ping <节点IP>、telnet <节点IP> <端口>(默认2181)。sudo netstat -tuln | grep 2181,若被占用需终止进程或修改端口。检查系统资源
free -h(内存)、df -h(磁盘)。top。使用四字命令监控集群状态
echo stat | nc localhost 2181查看节点角色、连接数等状态。ruok(检查服务是否运行)、mntr(详细监控信息)。处理常见故障场景
dataDir下的zookeeper_server.pid和version-2目录后重启。zoo.cfg中端口并重启服务。sync命令同步节点数据。重启服务
sudo systemctl restart zookeeper 或 ./zkServer.sh start。提示:操作前建议备份配置文件和数据目录,若问题复杂可参考Zookeeper官方文档或社区论坛。