-
DataNode 无法连接 NameNode
现象:DataNode 日志反复出现 “Problem connecting to server: : / Retrying connect …”。
处置:
- 在 NameNode 用 netstat -l 确认 9000 等端口监听;
- 双向 ping 与端口连通性测试(必要时用 telnet/nc);
- 检查 /etc/hosts、DNS、firewalld/ufw 是否阻断;
- 复核 core-site.xml 的 fs.defaultFS 与 hdfs-site.xml 的 dfs.namenode.rpc-address 是否一致;
- 修正后重启 DataNode 并观察日志是否恢复正常注册。
-
节点宕机或进程异常退出
现象:hdfs dfsadmin -report 显示 Dead 或 Live Nodes 减少;作业在 YARN 侧失败或重试。
处置:
- 先恢复节点(硬件/系统/网络),再以 hadoop 用户重启进程:如 $HADOOP_HOME/sbin/hadoop-daemon.sh start datanode、start nodemanager;
- 观察 NameNode/ResourceManager UI 与 jps 确认恢复;
- 若节点短期内无法恢复,为降低风险可临时将节点从集群排除(见下一节)。
-
节点不健康(磁盘满、权限、不健康状态)
现象:hdfs dfsadmin -report 显示 Decommissioning/Unhealthy;或 HDFS 健康检查 异常。
处置:
- 清理 DataNode 数据目录 或扩容磁盘,确保 dfs.datanode.data.dir 所在分区可用;
- 检查目录权限与属主(运行用户需可读写);
- 用 hdfs fsck / 检查文件系统健康,针对 Under-replicated/Missing/Corrupt 块安排修复或重建;
- 恢复后再次执行 hdfs dfsadmin -report 验证状态转为 HEALTHY。