HDFS在Linux中的集群管理主要涉及配置、启动、监控及维护等操作,以下是核心步骤和命令:
环境准备
sudo apt-get install openjdk-8-jdk(Ubuntu)或 yum install java-1.8.0-openjdk(CentOS)。wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz,然后解压到指定目录。/etc/profile,添加export HADOOP_HOME=/path/to/hadoop和export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin,执行source /etc/profile。配置核心文件
core-site.xml:设置fs.defaultFS=hdfs://namenode:9000(NameNode地址)。hdfs-site.xml:配置副本数dfs.replication=3、NameNode数据目录dfs.namenode.name.dir、DataNode数据目录dfs.datanode.data.dir。hdfs-site.xml中添加dfs.nameservices、dfs.ha.namenodes等参数,配合ZooKeeper实现主备切换。格式化与启动
hdfs namenode -format(仅首次启动需执行)。start-dfs.sh(启动NameNode和DataNode),start-yarn.sh(启动ResourceManager和NodeManager)。查看集群状态
hdfs dfsadmin -report,查看节点状态、存储使用情况等。http://namenode:9870(HDFS UI)或http://resourcemanager:8088(YARN UI)。节点管理
slaves文件中添加新节点主机名,执行hdfs dfsadmin -refreshNodes刷新节点列表。dfs.hosts.exclude文件中添加节点主机名,执行hdfs dfsadmin -refreshNodes,节点会自动进入退役状态。数据平衡与修复
hdfs balancer -threshold 10(调整阈值,单位为百分比)。hdfs fsck /path -files -blocks -locations,修复损坏文件可用-delete参数。高可用(HA)配置
hdfs-site.xml中dfs.ha.automatic-failover.enabled=true,实现NameNode自动切换。性能调优
dfs.blocksize=256M(适合大文件),dfs.replication=2(测试环境可降低副本数)。core-site.xml中配置net.topology.script.file.name,指定机架识别脚本。hadoop fsck(文件系统检查)、hdfs balancer(数据平衡)。$HADOOP_HOME/logs)排查异常。hdfs dfs -chmod和hdfs dfs -chown设置文件权限和所有者。参考来源:[1,2,3,5,6,7,8,9,10,11]