以下是Ubuntu环境下Hadoop的故障排查步骤:
jps
命令查看NameNode、DataNode、ResourceManager等核心进程是否正常运行。$HADOOP_HOME/logs
目录,通过tail -f
或grep
分析错误日志,重点关注异常堆栈信息。core-site.xml
、hdfs-site.xml
、yarn-site.xml
等配置文件的正确性,如端口号、路径、权限等。ping
和traceroute
命令确保节点间网络通畅,检查防火墙是否开放Hadoop所需端口(如9000、8088等)。top
、htop
、iostat
等工具查看CPU、内存、磁盘I/O使用情况,排查资源瓶颈。hdfs dfsadmin -report
查看节点健康状态,确认DataNode是否正常连接,数据块是否完整。yarn node -list
查看NodeManager状态,访问ResourceManager Web界面(默认8088端口)检查任务执行情况。stop-all.sh
),再重新启动(start-all.sh
)。dfsadmin -refreshNodes
)并替换。参考来源: