在Ubuntu系统中排查HDFS(Hadoop Distributed File System)故障可以按照以下步骤进行:
hdfs dfsadmin -report 查看集群的整体状态,包括DataNode的数量、健康状况以及存储容量等。http://namenode-hostname:50070(NameNode的Web UI)和 http://datanode-hostname:50075(DataNode的Web UI)获取更多信息。HADOOP_HOME/logs 目录下。namenode-hostname.log 和 datanode-hostname.log 等日志文件,寻找错误信息或异常堆栈跟踪。core-site.xml、hdfs-site.xml 和 mapred-site.xml 等配置文件中的设置正确无误。ping 命令检查集群节点之间的网络连通性。netstat 或 ss 命令检查网络端口是否正常监听。traceroute 或 mtr 命令追踪数据包在网络中的路径,以发现潜在的网络问题。df -h 命令检查DataNode的磁盘空间使用情况,确保有足够的空间存储数据。top、htop 或 atop 等工具检查系统资源(CPU、内存、磁盘I/O)的使用情况。hdfs fsck 命令检查HDFS文件系统的一致性。这个命令会报告损坏的文件和块,以及丢失或复制的块。fsck 的输出,可能需要手动修复损坏的文件或块。/var/log/messages 或 /var/log/syslog),查找与HDFS相关的错误信息。在进行故障排查时,请务必谨慎操作,以免对集群造成进一步损害。