在Ubuntu上排查HDFS故障可参考以下步骤:
查看集群状态
hdfs dfsadmin -report 查看DataNode数量、健康状态及存储容量。分析日志文件
/var/log/hadoop-hdfs/hadoop-*-namenode-*.log。/var/log/hadoop-hdfs/hadoop-*-datanode-*.log。tail -f 或 grep 过滤关键错误(如WARN/ERROR级别)。检查配置文件
core-site.xml、hdfs-site.xml 中参数正确(如 fs.defaultFS、dfs.replication)。排查网络与硬件
ping 和 netstat 检查节点间网络连通性,确保端口(如50070、8020)开放。df -h 确认DataNode磁盘空间充足,无坏道。处理数据一致性问题
hdfs fsck / -files -blocks -locations 检查损坏块,删除或修复。hdfs dfsadmin -setReplication 调整副本数。应对特殊异常
hdfs dfsadmin -safemode leave 退出(需先修复问题)。hadoop-env.sh 中 HADOOP_NAMENODE_OPTS)。重启服务
sudo service hadoop-hdfs-namenode restart
sudo service hadoop-hdfs-datanode restart
(需先备份数据)。寻求社区支持
注意:操作前建议备份重要数据,谨慎执行删除或格式化操作。