在Linux环境下进行Hadoop故障排查,可以遵循以下步骤:
jps
命令查看Java进程是否正常运行,确保NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager等进程都在运行。HADOOP_HOME/logs
目录下。hdfs dfsadmin -report
命令查看HDFS的健康状况和节点信息。yarn node -list
命令查看ResourceManager管理的NodeManager列表及其状态。ping
和 traceroute
命令检查集群节点之间的网络连通性。core-site.xml
、hdfs-site.xml
、yarn-site.xml
和 mapred-site.xml
,确保所有配置项正确无误。HADOOP_HOME
和 PATH
等环境变量设置正确。hdfs dfs -ls /
命令检查HDFS根目录下的文件和目录。yarn application -list
命令查看正在运行的YARN应用程序。top
、htop
或 vmstat
命令监控CPU、内存和磁盘I/O的使用情况。df -h
、du -sh /path/*
、ls -lhS /path/ | head
等命令快速定位磁盘空间和使用情况。hdfs dfs -df -h
、yarn logs -applicationId
、kafka-topics.sh --describe --zookeeper localhost:2181
等命令专项检查HDFS、YARN和Kafka的状态。inode
耗尽、磁盘配额限制、僵尸进程占用、Docker容器日志等。通过以上步骤和技巧,可以系统地排查和解决Hadoop在Linux上的故障。根据具体情况,可能需要结合多种方法来定位和解决问题。