排查 Ubuntu 上的 Hadoop 故障可以按照以下步骤进行:
检查日志文件:
$HADOOP_HOME/logs
目录下。检查这些日志文件,特别是 hadoop-<username>-namenode-<hostname>.log
、hadoop-<username>-datanode-<hostname>.log
、hadoop-<username>-secondarynamenode-<hostname>.log
等,以获取错误信息和异常堆栈跟踪。验证配置文件:
core-site.xml
、hdfs-site.xml
、yarn-site.xml
和 mapred-site.xml
)都是正确的,并且符合你的集群配置。特别注意 fs.defaultFS
、dfs.replication
、yarn.resourcemanager.hostname
等关键属性。检查 HDFS 状态:
hdfs dfsadmin -report
命令来检查 HDFS 的状态,包括 NameNode 和 DataNode 的状态。hdfs fsck /
命令来检查文件系统的健康状况。检查 YARN 状态:
yarn node -list
命令来查看集群中所有节点的状态。yarn application -list
或 yarn application -status <application_id>
来查看正在运行的应用程序的状态。网络和防火墙设置:
资源使用情况:
top
、htop
、df -h
、free -m
等命令来检查系统的资源使用情况,包括 CPU、内存、磁盘空间等。Java 环境:
JAVA_HOME
环境变量已经设置。重启服务:
查看系统日志:
/var/log/syslog
或 /var/log/messages
,以查找可能与 Hadoop 故障相关的信息。使用诊断工具:
hadoop checknative -a
可以用来检查本地库的支持情况。咨询社区:
在进行故障排查时,记得记录你的操作和发现的信息,这样可以帮助你更快地定位问题所在。