Hadoop在Linux上扩展集群主要有添加新节点和调整资源配置两种方式,具体步骤如下:
HADOOP_HOME
、JAVA_HOME
等),同步主节点的配置文件(core-site.xml
、hdfs-site.xml
等)。/etc/hosts
中添加集群所有节点的主机名与IP映射,并配置SSH免密登录。$HADOOP_HOME/sbin/hadoop-daemon.sh start datanode
slaves
文件中添加新节点的主机名,并刷新节点列表:hdfs dfsadmin -refreshNodes
hdfs dfsadmin -report
查看DataNode状态,或访问NameNode Web界面(http://namenode:9870
)。$HADOOP_HOME/sbin/yarn-daemon.sh start nodemanager
http://resourcemanager:8088
)。yarn-site.xml
,调整yarn.nodemanager.resource.memory-mb
(内存)和yarn.nodemanager.resource.cpu-vcores
(CPU核心数),然后重启YARN服务。-Dmapreduce.map.memory.mb=4096
。hdfs balancer
命令手动触发数据块重新分布,避免数据倾斜。core-site.xml
中的fs.defaultFS
和hdfs-site.xml
中的dfs.replication
(副本数)。auto_add_node.sh
)批量添加节点,提升效率。参考来源: