Hadoop在Linux集群的扩展方式及操作要点如下:
/etc/hosts
文件。core-site.xml
、hdfs-site.xml
、yarn-site.xml
等)到新节点。hdfs-site.xml
中配置新节点的数据存储目录(dfs.datanode.data.dir
)。slaves
或workers
文件中添加新节点主机名。hadoop-daemon.sh start datanode # 启动DataNode
yarn-daemon.sh start nodemanager # 启动NodeManager(YARN计算节点)
hdfs dfsadmin -report # 查看HDFS节点
yarn node -list # 查看YARN节点
yarn-site.xml
中yarn.nodemanager.resource.memory-mb
等参数提升单机资源。auto_add_node.sh
)。hdfs balancer
命令重新分配数据,避免数据倾斜。参考来源: