以下是Ubuntu Hadoop故障排查步骤:
检查基础环境
JAVA_HOME
环境变量。core-site.xml
、hdfs-site.xml
、yarn-site.xml
)是否正确,重点关注端口、路径等参数。查看进程与日志
jps
命令查看Hadoop进程(NameNode、DataNode、ResourceManager等)是否正常运行。$HADOOP_HOME/logs
目录下的日志文件,分析错误信息或堆栈跟踪。检查集群状态
hdfs dfsadmin -report
查看HDFS节点状态,确认DataNode是否存活、磁盘空间是否充足。yarn node -list
查看YARN节点状态,检查ResourceManager与NodeManager的连接。排查网络与权限
ping
、traceroute
测试节点间网络连通性,确保防火墙开放必要端口(如8088、50010等)。处理异常节点
hdfs-site.xml
中dfs.hosts.exclude
文件将其隔离,再执行hdfs dfsadmin -refreshNodes
下线。hadoop-daemon.sh stop datanode
和yarn-daemon.sh stop nodemanager
停止服务。系统资源与性能监控
top
、htop
、vmstat
监控CPU、内存、磁盘I/O,排查资源瓶颈。hdfs fsck /
检查数据块完整性,必要时触发数据修复或均衡。其他操作
关键命令总结:
jps
tail -f $HADOOP_HOME/logs/*.log
hdfs dfsadmin -report
ping <节点IP>
、traceroute <节点IP>
top
、hdfs fsck /