排查 Ubuntu 上的 Hadoop 故障可以按照以下步骤进行:
检查日志文件:
$HADOOP_HOME/logs 目录下。检查这些日志文件,特别是 hadoop-<username>-namenode-<hostname>.log、hadoop-<username>-datanode-<hostname>.log、hadoop-<username>-secondarynamenode-<hostname>.log 等,以获取错误信息和异常堆栈跟踪。验证配置文件:
core-site.xml、hdfs-site.xml、yarn-site.xml 和 mapred-site.xml)都是正确的,并且符合你的集群配置。特别注意 fs.defaultFS、dfs.replication、yarn.resourcemanager.hostname 等关键属性。检查 HDFS 状态:
hdfs dfsadmin -report 命令来检查 HDFS 的状态,包括 NameNode 和 DataNode 的状态。hdfs fsck / 命令来检查文件系统的健康状况。检查 YARN 状态:
yarn node -list 命令来查看集群中所有节点的状态。yarn application -list 或 yarn application -status <application_id> 来查看正在运行的应用程序的状态。网络和防火墙设置:
资源使用情况:
top、htop、df -h、free -m 等命令来检查系统的资源使用情况,包括 CPU、内存、磁盘空间等。Java 环境:
JAVA_HOME 环境变量已经设置。重启服务:
查看系统日志:
/var/log/syslog 或 /var/log/messages,以查找可能与 Hadoop 故障相关的信息。使用诊断工具:
hadoop checknative -a 可以用来检查本地库的支持情况。咨询社区:
在进行故障排查时,记得记录你的操作和发现的信息,这样可以帮助你更快地定位问题所在。