以下是Ubuntu Hadoop集群扩容步骤(基于Hadoop 2.x/3.x版本):
环境检查
java -version)和Hadoop(hadoop version),版本需与集群一致。/etc/hosts中添加新节点IP与主机名映射,并同步到集群所有节点。同步配置文件
$HADOOP_HOME/etc/hadoop/下的core-site.xml、hdfs-site.xml、yarn-site.xml等配置文件拷贝到新节点对应目录。修改主节点配置
$HADOOP_HOME/etc/hadoop/workers(或slaves)文件中添加新节点主机名。hdfs-site.xml,在<property name="dfs.hosts">中添加新节点IP或主机名。启动新节点服务
# 启动DataNode
$HADOOP_HOME/sbin/hadoop-daemon.sh start datanode
# 启动NodeManager(YARN)
$HADOOP_HOME/sbin/yarn-daemon.sh start nodemanager
检查节点状态
hdfs dfsadmin -report 或访问NameNode Web界面(http://<namenode>:9870)。http://<resourcemanager>:8088/cluster/nodes。数据均衡(可选)
hdfs balancer -threshold 10 # 参数为磁盘使用率差异阈值(%)
JAVA_HOME、HADOOP_HOME等环境变量一致。dfs.hosts.exclude中添加节点并刷新,避免数据丢失。参考来源: