以下是Hadoop在Ubuntu上的故障排除步骤:
检查基础环境
java -version,检查JAVA_HOME是否指向正确路径。core-site.xml、hdfs-site.xml等)是否完整。查看进程与日志
jps命令查看Hadoop进程(如NameNode、DataNode)是否正常运行。$HADOOP_HOME/logs目录),通过tail -f或grep搜索错误信息。排查网络与配置
ping测试节点间网络连通性,确保主机名与IP配置正确,修改/etc/hosts文件。fs.defaultFS、dfs.replication)正确无误。处理常见异常
dfs.datanode.data.dir目录权限,确保与NameNode的clusterID一致,可删除临时文件重新格式化。chown和chmod确保Hadoop目录权限正确。系统资源与工具
top、iostat等工具监控CPU、内存、磁盘使用情况,排查资源瓶颈。高级操作
stop-dfs.sh/stop-yarn.sh),再启动。注意:操作前建议备份数据,格式化HDFS(hdfs namenode -format)会清除所有数据。