在Ubuntu上排查HDFS故障可参考以下步骤:
查看集群状态
hdfs dfsadmin -report
查看DataNode数量、健康状态及存储容量。分析日志文件
/var/log/hadoop-hdfs/hadoop-*-namenode-*.log
。/var/log/hadoop-hdfs/hadoop-*-datanode-*.log
。tail -f
或 grep
过滤关键错误(如WARN/ERROR级别)。检查配置文件
core-site.xml
、hdfs-site.xml
中参数正确(如 fs.defaultFS
、dfs.replication
)。排查网络与硬件
ping
和 netstat
检查节点间网络连通性,确保端口(如50070、8020)开放。df -h
确认DataNode磁盘空间充足,无坏道。处理数据一致性问题
hdfs fsck / -files -blocks -locations
检查损坏块,删除或修复。hdfs dfsadmin -setReplication
调整副本数。应对特殊异常
hdfs dfsadmin -safemode leave
退出(需先修复问题)。hadoop-env.sh
中 HADOOP_NAMENODE_OPTS
)。重启服务
sudo service hadoop-hdfs-namenode restart
sudo service hadoop-hdfs-datanode restart
(需先备份数据)。寻求社区支持
注意:操作前建议备份重要数据,谨慎执行删除或格式化操作。