Hadoop Linux集群扩容指南
/etc/hosts文件中添加新节点的IP与主机名映射(如192.168.1.13 node03),确保主机名解析正确。ssh-copy-id user@node03),测试ssh node03 hostname能无密码执行。scp -r /opt/hadoop user@node03:/opt/),并设置环境变量(HADOOP_HOME、PATH),通过hadoop version验证安装。$HADOOP_HOME/etc/hadoop目录下的core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml拷贝至新节点的相同目录,确保配置一致。$HADOOP_HOME/etc/hadoop/workers文件(或旧版本的slaves文件),添加新节点的主机名或IP(如node03),用于批量启动服务。dfs.hosts配置),需将新节点添加至dfs.hosts文件(如$HADOOP_HOME/etc/hadoop/dfs.hosts),并通过hdfs dfsadmin -refreshNodes命令刷新配置。$HADOOP_HOME/etc/hadoop/core-site.xml,确保fs.defaultFS指向主节点的NameNode URI(如hdfs://master:9000);编辑hdfs-site.xml,配置dfs.datanode.data.dir(数据存储目录,如/data/hdfs/datanode);编辑mapred-site.xml,设置mapreduce.framework.name为yarn。$HADOOP_HOME/sbin/hadoop-daemon.sh start datanode
$HADOOP_HOME/sbin/yarn-daemon.sh start nodemanager
或使用主节点的workers文件批量启动所有服务:start-dfs.sh(启动HDFS)、start-yarn.sh(启动YARN)。hdfs dfsadmin -report(或访问NameNode Web UI:http://<namenode_host>:9870/dfshealth.html),确认新节点的DataNode已加入。http://<resourcemanager_host>:8088/cluster/nodes),确认新节点的NodeManager已注册。hdfs balancer命令(可设置-threshold 10调整平衡阈值,-bandwidth 1048576调整带宽为1MB/s),将数据均匀分布至新节点,避免数据倾斜影响任务效率。