Hadoop在Linux集群的扩展方式及操作要点如下:
/etc/hosts文件。core-site.xml、hdfs-site.xml、yarn-site.xml等)到新节点。hdfs-site.xml中配置新节点的数据存储目录(dfs.datanode.data.dir)。slaves或workers文件中添加新节点主机名。hadoop-daemon.sh start datanode # 启动DataNode
yarn-daemon.sh start nodemanager # 启动NodeManager(YARN计算节点)
hdfs dfsadmin -report # 查看HDFS节点
yarn node -list # 查看YARN节点
yarn-site.xml中yarn.nodemanager.resource.memory-mb等参数提升单机资源。auto_add_node.sh)。hdfs balancer命令重新分配数据,避免数据倾斜。参考来源: