CentOS HDFS容错机制配置技巧

以下是CentOS上配置HDFS容错机制（高可用）的核心技巧及关键步骤，基于搜索资源中的最佳实践整理：

一、基础架构规划

节点角色
- 至少部署 2个NameNode（1主1备）和 3个JournalNode（奇数防脑裂），DataNode根据数据规模扩展。
- 部署 ZooKeeper集群（3节点）用于协调NameNode状态切换。
网络要求
- 所有节点间网络互通，关闭防火墙或开放必要端口（如NameNode RPC端口8020、ZooKeeper端口2181等）。

二、核心配置文件修改

1. `core-site.xml`

指定集群默认文件系统路径及ZooKeeper集群地址：

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://mycluster</value>  <!-- 集群名称，需与hdfs-site.xml一致 -->
</property>
<property>
    <name>ha.zookeeper.quorum</name>
    <value>zk1:2181,zk2:2181,zk3:2181</value>  <!-- ZooKeeper节点列表 -->
</property>

2. `hdfs-site.xml`

NameNode高可用配置：

<property>
    <name>dfs.nameservices</name>
    <value>mycluster</value>  <!-- 集群名称 -->
</property>
<property>
    <name>dfs.ha.namenodes.mycluster</name>
    <value>nn1,nn2</value>  <!-- 主备NameNode标识 -->
</property>
<property>
    <name>dfs.namenode.rpc-address.mycluster.nn1</name>
    <value>nn1-host:8020</value>  <!-- 主NameNode RPC地址 -->
</property>
<property>
    <name>dfs.namenode.rpc-address.mycluster.nn2</name>
    <value>nn2-host:8020</value>  <!-- 备NameNode RPC地址 -->
</property>
<property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://jn1:8485;jn2:8485;jn3:8485/mycluster</value>  <!-- JournalNode共享日志路径 -->
</property>
<property>
    <name>dfs.client.failover.proxy.provider.mycluster</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>  <!-- 自动故障转移代理 -->
</property>
<property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>  <!-- 启用自动故障转移 -->
</property>
<property>
    <name>dfs.ha.fencing.methods</name>
    <value>sshfence</value>  <!-- 隔离机制，通过SSH防止脑裂 -->
</property>
<property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/root/.ssh/id_rsa</value>  <!-- SSH密钥路径 -->
</property>

3. JournalNode配置

在hdfs-site.xml中指定JournalNode数据存储目录：

<property>
    <name>dfs.journalnode.edits.dir</name>
    <value>/var/lib/hadoop/journalnode</value>  <!-- 确保目录权限为700 -->
</property>

三、关键操作步骤

启动JournalNode
在所有JournalNode节点上执行：
```
$HADOOP_HOME/sbin/hadoop-daemon.sh start journalnode
```
格式化主NameNode
在主NameNode节点上执行（仅第一次需要）：
```
hdfs namenode -format
```
同步元数据到备NameNode
在备NameNode上执行：
```
hdfs namenode -bootstrapStandby
```
启动服务
- 启动主备NameNode、ZKFC（故障转移控制器）：
```
$HADOOP_HOME/sbin/start-dfs.sh
```
- 启动DataNode服务：
```
$HADOOP_HOME/sbin/start-datanode
```

验证集群状态

查看NameNode状态：
```
hdfs dfsadmin -report
```

检查ZooKeeper连接：

echo stat | nc zk1 2181  # 测试ZooKeeper服务是否正常

四、容错机制验证

手动模拟故障
- 停止主NameNode服务，观察备NameNode是否自动切换为Active状态：
```
# 在主NameNode节点执行
pkill -9 java  # 强制停止NameNode
```
- 通过hdfs dfsadmin -report确认新主节点已接管服务。
数据一致性校验
- 写入测试数据后，停止部分DataNode，验证数据是否可正常读取（依赖副本机制）：
```
hdfs dfs -put /local/file /hdfs/path  # 写入数据
# 停止部分DataNode后再次读取
hdfs dfs -cat /hdfs/path/file
```

五、优化与注意事项

副本因子设置：
在hdfs-site.xml中通过dfs.replication配置默认副本数（通常3份，可根据节点数量调整）。
监控与告警：
部署Prometheus+Grafana监控集群状态，重点关注NameNode存活、JournalNode延迟、DataNode磁盘使用率等指标。
日志管理：
定期清理NameNode和DataNode的日志文件（路径由hadoop.tmp.dir配置），避免磁盘占满。

参考来源：

0 赞

0 踩

一、基础架构规划

二、核心配置文件修改

1. core-site.xml

2. hdfs-site.xml

3. JournalNode配置

三、关键操作步骤

四、容错机制验证

五、优化与注意事项

1. `core-site.xml`

2. `hdfs-site.xml`