Ubuntu Hadoop故障如何排查 - 问答

以下是Ubuntu Hadoop故障排查步骤：

检查基础环境
- 确认Java安装正确，版本符合要求，配置JAVA_HOME环境变量。
- 检查Hadoop配置文件（core-site.xml、hdfs-site.xml、yarn-site.xml）是否正确，重点关注端口、路径等参数。
查看进程与日志
- 用jps命令查看Hadoop进程（NameNode、DataNode、ResourceManager等）是否正常运行。
- 查看$HADOOP_HOME/logs目录下的日志文件，分析错误信息或堆栈跟踪。
检查集群状态
- 用hdfs dfsadmin -report查看HDFS节点状态，确认DataNode是否存活、磁盘空间是否充足。
- 用yarn node -list查看YARN节点状态，检查ResourceManager与NodeManager的连接。
排查网络与权限
- 用ping、traceroute测试节点间网络连通性，确保防火墙开放必要端口（如8088、50010等）。
- 确认节点间SSH免密登录配置正确，避免权限问题导致通信失败。
处理异常节点
- 若发现故障节点，可通过编辑hdfs-site.xml中dfs.hosts.exclude文件将其隔离，再执行hdfs dfsadmin -refreshNodes下线。
- 对故障节点执行hadoop-daemon.sh stop datanode和yarn-daemon.sh stop nodemanager停止服务。
系统资源与性能监控
- 用top、htop、vmstat监控CPU、内存、磁盘I/O，排查资源瓶颈。
- 用hdfs fsck /检查数据块完整性，必要时触发数据修复或均衡。
其他操作
- 若为配置错误导致，可尝试重启Hadoop服务（先停止再启动）。
- 参考官方文档或社区论坛（如Stack Overflow）获取针对性解决方案。

关键命令总结：

进程检查：jps
日志查看：tail -f $HADOOP_HOME/logs/*.log
HDFS状态：hdfs dfsadmin -report
网络测试：ping <节点IP>、traceroute <节点IP>
资源监控：top、hdfs fsck /

0 赞

0 踩