Ubuntu Hadoop 集群如何实现高可用 - 问答

实现Ubuntu Hadoop集群高可用需配置NameNode和ResourceManager的高可用，依赖ZooKeeper实现故障自动切换，步骤如下：

集群规划：至少3台Ubuntu服务器，分配角色如下：
- 主节点（Master）：运行Active NameNode、ResourceManager、ZooKeeper、JournalNode。
- 备用节点（Standby）：运行Standby NameNode、ResourceManager、ZooKeeper、JournalNode。
- 数据节点（DataNode）：运行DataNode、NodeManager。
基础配置：
- SSH免密登录：在主节点生成密钥，分发至所有节点，确保无密码访问。
- 主机名与IP映射：修改/etc/hosts文件，添加所有节点的IP和主机名。
- 安装JDK：所有节点安装相同版本的JDK（建议JDK 8+）。
ZooKeeper集群搭建：
- 在3台节点上安装ZooKeeper，配置zoo.cfg文件，指定server.id=host:port:port（如server.1=master:2888:3888），并为每个节点创建myid文件（内容为对应ID）。
- 启动ZooKeeper服务：zkServer.sh start，验证状态为Leader/Follower。
HDFS高可用配置：
- 共享存储：通过JournalNode同步NameNode元数据，在主节点格式化NameNode后，使用hdfs namenode -bootstrapStandby同步至备用节点。
- 配置参数：在hdfs-site.xml中设置dfs.nameservices、dfs.ha.namenodes、dfs.namenode.rpc-address等参数，启用自动故障转移dfs.ha.automatic-failover.enabled=true。
YARN高可用配置：
- 在yarn-site.xml中启用ResourceManager高可用：yarn.resourcemanager.ha.enabled=true，指定主备ResourceManager的hostname和ZooKeeper地址yarn.resourcemanager.zk-address。
启动集群：
- 先启动JournalNode和ZooKeeper，再格式化HDFS（仅需在主节点执行一次），最后启动HDFS和YARN服务。
验证高可用：
- 使用hdfs haadmin -getServiceState nn1和yarn rmadmin -getServiceState rm1检查主备状态。
- 模拟节点故障（如停止主节点服务），验证自动切换至备用节点。

关键组件作用：

ZooKeeper：监控NameNode和ResourceManager状态，触发故障切换。
JournalNode：存储NameNode的EditLog，确保主备节点元数据一致。
DFSZKFailoverController：监控NameNode状态，配合ZooKeeper实现主备切换。

注意事项：

确保防火墙开放Hadoop相关端口（如8020、9870、2181等）。
定期备份HDFS数据，避免单点故障导致数据丢失。

0 赞

0 踩