Hadoop集群Linux如何进行故障恢复 - 问答

Hadoop集群Linux环境故障恢复指南

一、故障排查基础步骤

1. 查看Hadoop日志文件

Hadoop的日志是故障定位的核心依据，主要位于$HADOOP_HOME/logs目录下（如namenode.log、datanode.log、yarn.log）。使用tail -f命令实时查看实时日志，或通过grep过滤关键词（如“ERROR”“Exception”）快速定位问题。例如：

tail -f /opt/hadoop/logs/hadoop-hdfs-namenode-localhost.log | grep "ERROR"

2. 检查Hadoop进程状态

使用jps命令查看Hadoop关键进程是否运行（如NameNode、DataNode、ResourceManager、NodeManager）。若进程缺失，需进一步排查原因（如端口冲突、配置错误）。例如：

jps  # 正常应看到NameNode、DataNode等进程

3. 验证网络与配置文件

网络连通性：使用ping测试节点间网络是否畅通，netstat -tulnp检查端口（如50070、8088）是否监听。
配置文件一致性：检查core-site.xml（HDFS核心配置）、hdfs-site.xml（HDFS副本数、NameNode地址）、yarn-site.xml（YARN资源调度）等文件，确保所有节点配置一致。例如：

cat $HADOOP_HOME/etc/hadoop/core-site.xml  # 确认fs.defaultFS配置正确

二、常见故障场景及恢复方法

1. DataNode节点不健康/宕机

确认节点状态：使用hdfs dfsadmin -report查看集群状态，标记为“DEAD”的节点即为异常。
定位原因：查看DataNode日志（datanode.log），常见原因包括磁盘空间不足、网络故障、配置错误。
恢复步骤：
1. 清理磁盘空间：删除/tmp或HDFS临时目录下的无用文件（如rm -rf /tmp/*）。
2. 重启服务：停止并重启DataNode进程：
```
hadoop-daemon.sh stop datanode
hadoop-daemon.sh start datanode
```
3. 数据恢复：若节点长期宕机，HDFS会自动复制其上的数据块到其他健康节点（默认副本数3）。可通过hdfs fsck / -list-corruptfileblocks检查受损数据块并修复。

2. NameNode故障（非HA场景）

故障表现：无法访问HDFS Web界面（如http://namenode:50070），jps看不到NameNode进程。
恢复步骤：
1. 格式化NameNode（若数据不重要）：删除NameNode数据目录（dfs.namenode.name.dir配置的路径），然后重新格式化：
```
hdfs namenode -format
```
2. 恢复元数据（若有备份）：从备份中恢复fsimage和edits文件到NameNode数据目录，再启动NameNode。
3. 启动服务：
```
start-dfs.sh  # 启动HDFS服务
```

3. YARN任务失败

常见原因：资源不足（内存/CPU）、任务逻辑错误、中间结果目录权限问题。
恢复步骤：
1. 查看任务日志：通过YARN Web界面（http://resourcemanager:8088）点击任务ID，查看stderr和syslog中的错误信息。
2. 调整资源分配：修改yarn-site.xml中的资源参数（如yarn.nodemanager.resource.memory-mb），增加容器内存：
```
<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>4096</value>  
</property>
```
3. 清理临时目录：若中间结果目录权限不足，删除/tmp/hadoop-yarn/staging下的临时文件，重新提交任务。

4. 数据丢失（误删/损坏）

误删文件恢复：HDFS默认开启回收站功能（fs.trash.interval设置为非0值），误删文件会移动到/user/username/.Trash目录。使用以下命令恢复：
```
hadoop fs -restore /user/username/.Trash/Current/path/to/file  # 恢复到原路径
```

数据块损坏恢复：使用hdfs fsck命令检查并修复受损数据块：

hadoop fsck /path/to/directory -files -blocks -locations  # 检查数据块状态
hadoop fsck /path/to/file -delete  # 删除受损文件（谨慎使用）

无备份恢复：若未开启回收站且无备份，可尝试从其他健康节点的副本中恢复（HDFS默认3副本），或使用第三方工具（如Hadoop fsimage解析工具）。

三、高可用（HA）场景故障恢复

若集群配置了HDFS HA（Active/Standby NameNode），当Active节点故障时，Standby节点会自动切换为Active状态（需ZooKeeper支持）。手动触发切换的命令：

hdfs haadmin -failover active-namenode standby-namenode  # 强制切换

切换后，需检查Standby节点是否正常接管服务（通过Web界面查看NameNode状态）。

四、预防性维护建议

开启HDFS回收站：在core-site.xml中设置fs.trash.interval=1440（1天），避免误删数据。
定期备份元数据：使用hdfs dfsadmin -saveNamespace命令保存NameNode元数据到本地或远程存储。
监控集群状态：使用Prometheus+Grafana监控集群资源（CPU、内存、磁盘）、节点健康状态，及时预警故障。
定期检查配置：确保所有节点配置一致，避免因配置错误导致故障。

0 赞

0 踩