以下是Ubuntu Hadoop故障排查步骤:
检查基础环境
JAVA_HOME环境变量。core-site.xml、hdfs-site.xml、yarn-site.xml)是否正确,重点关注端口、路径等参数。查看进程与日志
jps命令查看Hadoop进程(NameNode、DataNode、ResourceManager等)是否正常运行。$HADOOP_HOME/logs目录下的日志文件,分析错误信息或堆栈跟踪。检查集群状态
hdfs dfsadmin -report查看HDFS节点状态,确认DataNode是否存活、磁盘空间是否充足。yarn node -list查看YARN节点状态,检查ResourceManager与NodeManager的连接。排查网络与权限
ping、traceroute测试节点间网络连通性,确保防火墙开放必要端口(如8088、50010等)。处理异常节点
hdfs-site.xml中dfs.hosts.exclude文件将其隔离,再执行hdfs dfsadmin -refreshNodes下线。hadoop-daemon.sh stop datanode和yarn-daemon.sh stop nodemanager停止服务。系统资源与性能监控
top、htop、vmstat监控CPU、内存、磁盘I/O,排查资源瓶颈。hdfs fsck /检查数据块完整性,必要时触发数据修复或均衡。其他操作
关键命令总结:
jpstail -f $HADOOP_HOME/logs/*.loghdfs dfsadmin -reportping <节点IP>、traceroute <节点IP>top、hdfs fsck /