以下是Ubuntu环境下Hadoop故障的排查步骤:
jps
命令查看NameNode、DataNode、ResourceManager等关键进程是否正常运行。$HADOOP_HOME/logs
目录,通过tail -f
或grep
分析错误日志,重点关注权限、网络、磁盘等问题。core-site.xml
、hdfs-site.xml
等配置项是否正确,如端口号、路径、权限等。ping
命令检测集群节点间网络是否通畅,确认防火墙未拦截Hadoop默认端口(如9000、8088)。hdfs dfsadmin -report
查看节点存活、存储使用情况,使用hdfs fsck
检查文件系统完整性。top
、iostat
等工具分析CPU、内存、磁盘IO是否异常,排查性能瓶颈。stop-all.sh
),再重新启动(start-all.sh
),观察是否恢复正常。若以上步骤无法解决,可参考官方文档或社区论坛(如Stack Overflow)寻求进一步帮助。