HDFS配置在CentOS上如何实现故障恢复 - 问答

HDFS在CentOS上的故障恢复与高可用配置

一、故障恢复流程

备份与回滚配置：优先恢复关键配置（如 /etc/hadoop/core-site.xml、hdfs-site.xml 等），确认 JAVA_HOME、HADOOP_HOME、PATH 等环境变量正确并已生效（执行 source /etc/profile 或 source ~/.bashrc）。
检查日志定位根因：查看 /var/log/hadoop/ 或 $HADOOP_HOME/logs/ 中的异常堆栈与报错关键词，聚焦启动失败、权限、端口、磁盘等常见因素。
网络与主机名：确保节点间网络互通、主机名可解析（/etc/hosts 或 DNS 正确），必要时临时关闭防火墙验证是否为端口阻断。
元数据与数据目录：核对 dfs.namenode.name.dir、dfs.datanode.data.dir 指向的磁盘与目录存在且权限正确；若目录损坏或丢失，需从备份恢复。
NameNode恢复：若元数据损坏且已有备份，先恢复配置与目录，再按需执行 hdfs namenode -format（注意：此操作会清空 HDFS 上所有数据，仅在无可用备份且可重建时使用）。
启动与验证：启动 sbin/start-dfs.sh，用 jps 检查进程，访问 NameNode Web UI（50070） 或 ResourceManager（8088） 校验状态与健康度。
配置同步：多节点环境需确保配置一致，变更后用 scp 同步并重新 source 环境变量。

二、高可用架构与关键配置

架构组件：部署 Active/Standby 双 NameNode、至少 3 个 JournalNode（承载编辑日志）、ZooKeeper 集群（状态与选主），客户端通过 nameservice 访问。
核心配置示例：
- core-site.xml：设置 fs.defaultFS=hdfs://mycluster；
- hdfs-site.xml：设置 dfs.nameservices=mycluster、dfs.ha.namenodes.mycluster=nn1,nn2、分别配置 dfs.namenode.rpc-address/dfs.namenode.http-address、dfs.client.failover.proxy.provider.mycluster=org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider、dfs.ha.fencing.methods=sshfence（并配置私钥路径）、dfs.journalnode.edits.dir 与 dfs.namenode.shared.edits.dir=qjournal://jn1:8485;jn2:8485;jn3:8485/mycluster。

三、HA部署与故障切换步骤

准备 ZooKeeper：安装并启动 ZooKeeper 集群（clientPort 2181，dataDir 如 /var/lib/zookeeper，各节点 myid 唯一）。
启动 JournalNode：在所有 JournalNode 节点执行启动脚本（如 $HADOOP_HOME/sbin/hadoop-daemon.sh start journalnode）。
格式化与引导：在第一个 NameNode 执行 hdfs namenode -format；在第二个 NameNode 执行 hdfs namenode -bootstrapStandby 同步元数据。
启动 NameNode：在两个 NameNode 上分别启动 namenode 进程。
验证与切换：通过 hdfs haadmin -getServiceState nn1 查看状态；需要切换时执行 hdfs haadmin -failover --forcefence --forceactive nn2 nn1；客户端使用 mycluster 访问，故障自动切换。

四、常见故障与快速修复

配置或版本不一致：核对 core-site.xml/hdfs-site.xml 关键项（如 fs.defaultFS、dfs.replication、dfs.namenode.name.dir、dfs.datanode.data.dir），确保集群节点配置一致；必要时清理 {HADOOP_HOME}/data、{HADOOP_HOME}/logs 后重初始化。
权限与目录：检查 HDFS 相关目录属主属组与权限（chown/chmod），避免因权限导致启动或读写失败。
端口与防火墙：确认 50070/8088/8020/8485/2181 等端口未被阻断，必要时在 firewalld 中放行对应端口或临时停用验证。
SSH 免密：HA 的 sshfence 需要 NameNode 间免密登录，确保 ~/.ssh/authorized_keys 正确配置。
日志优先：遇到异常先查 /var/log/hadoop/ 或 $HADOOP_HOME/logs/ 获取明确报错，再按提示修复。

五、重要注意事项

0 赞

0 踩