在Linux环境下进行Hadoop故障排查,可以遵循以下步骤:
使用jps
命令:查看Java进程是否正常运行。
jps
应该能看到NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager等进程。
查看Hadoop日志:
$HADOOP_HOME/logs
目录下。使用hdfs dfsadmin -report
命令:查看HDFS的健康状况和节点信息。
hdfs dfsadmin -report
检查NameNode和DataNode的连接:
hdfs dfsadmin -report
查看DataNode的状态。使用yarn node -list
命令:查看ResourceManager管理的NodeManager列表及其状态。
yarn node -list
检查ResourceManager和NodeManager的日志:
http://<resourcemanager-host>:8088
)。使用ping
和traceroute
命令:检查集群节点之间的网络连通性。
ping <node-ip>
traceroute <node-ip>
检查防火墙设置:确保必要的端口(如8088、50010、50020等)在防火墙中是开放的。
core-site.xml
、hdfs-site.xml
、yarn-site.xml
和mapred-site.xml
:确保所有配置项正确无误。HADOOP_HOME
和PATH
等环境变量设置正确。hdfs dfs -ls /
命令:检查HDFS根目录下的文件和目录。yarn application -list
命令:查看正在运行的YARN应用程序。top
、htop
或vmstat
命令:监控CPU、内存和磁盘I/O的使用情况。通过以上步骤,可以系统地排查Linux环境下Hadoop集群的故障。根据具体情况,可能需要结合多种方法来定位和解决问题。