Linux环境下Hadoop故障排查方法如下:
$HADOOP_HOME/logs目录,使用tail -f实时查看或grep过滤错误信息。jps命令确认Hadoop核心进程(如NameNode、DataNode)是否正常运行。ping测试节点间连通性,netstat或ss检查端口监听状态,确保防火墙开放必要端口(如8088、50010等)。core-site.xml、hdfs-site.xml等配置参数是否正确,如fs.defaultFS、dfs.namenode.name.dir等。top、vmstat、iostat监控CPU、内存、磁盘I/O,排查资源不足问题。hdfs dfsadmin -report查看HDFS状态,yarn node -list查看YARN节点状态。http://namenode:50070)和YARN Web界面(http://resourcemanager:8088)监控集群。namespaceID一致性,或删除临时文件重新格式化。yarn-site.xml中内存配置或增加JVM参数-Xmx。操作前建议:先备份重要数据,操作后验证集群状态,复杂问题可结合日志模式匹配或联系技术支持。