Ubuntu Hadoop集群故障排查可按以下步骤进行:
$HADOOP_HOME/logs目录下各组件(NameNode、DataNode等)日志,搜索"ERROR"等异常信息。jps命令确认Hadoop核心进程(如NameNode、ResourceManager)是否正常运行。ping测试节点间连通性,telnet或nc检查端口(如NameNode的9000、ResourceManager的8088)是否开放,确保防火墙未拦截。core-site.xml、hdfs-site.xml等配置参数是否正确,重点关注路径、端口、权限等设置。top、htop、df -h等命令监控CPU、内存、磁盘使用情况,排查资源瓶颈或不足。hdfs dfsadmin -report查看HDFS集群状态。yarn node -list查看YARN节点状态。hdfs fsck检查并修复文件系统错误。/var/log/syslog或journalctl排查系统级错误。参考来源: