Linux HDFS集群扩容实操指南
一 扩容方式概览
二 水平扩容 新增 DataNode
hdfs dfsadmin -refreshNodes 刷新;新节点启动 DataNode 进程(如 hadoop-daemon.sh start datanode 或 start-dfs.sh)。hdfs dfsadmin -report 或访问 NameNode Web UI 查看新节点是否已注册、存储与负载是否正常。三 垂直扩容 现有节点新增磁盘
dfs.datanode.data.dir)包含新路径,确保目录权限正确。hdfs namenode -format 会清空该目录数据,严禁对已有数据目录执行格式化。四 数据均衡与性能调优
hdfs balancer(默认阈值 10%,带宽约 1 MB/s)。hdfs balancer -threshold 10(例如将各节点使用率差异控制在 10% 以内)。hdfs balancer -threshold 5 -D dfs.datanode.balance.bandwidthPerSec=104857600(将带宽提升至 100 MB/s,按网络与业务负载调整)。dfs.replication(例如 3)。dfs.namenode.handler.count、dfs.datanode.handler.count、dfs.datanode.max.transfer.threads。dfs.blocksize(如 256M)。dfs.namenode.datanode.registration.ip-hostname-check=false(生产建议规范 DNS/hosts)。hdfs balancer -status;持续关注 NameNode/DataNode 日志 与 Web UI。五 验证与注意事项
hdfs dfsadmin -report 检查 Live Nodes、Capacity/Used/Remaining、各节点磁盘占用是否均衡。hdfs namenode -format;新增磁盘只需配置 dfs.datanode.data.dir 并启动 DataNode。hdfs dfsadmin -refreshNodes 即可。