HDFS在Linux中的集群管理主要涉及配置、启动、监控及维护等操作,以下是核心步骤和命令:
环境准备
sudo apt-get install openjdk-8-jdk
(Ubuntu)或 yum install java-1.8.0-openjdk
(CentOS)。wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
,然后解压到指定目录。/etc/profile
,添加export HADOOP_HOME=/path/to/hadoop
和export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
,执行source /etc/profile
。配置核心文件
core-site.xml
:设置fs.defaultFS=hdfs://namenode:9000
(NameNode地址)。hdfs-site.xml
:配置副本数dfs.replication=3
、NameNode数据目录dfs.namenode.name.dir
、DataNode数据目录dfs.datanode.data.dir
。hdfs-site.xml
中添加dfs.nameservices
、dfs.ha.namenodes
等参数,配合ZooKeeper实现主备切换。格式化与启动
hdfs namenode -format
(仅首次启动需执行)。start-dfs.sh
(启动NameNode和DataNode),start-yarn.sh
(启动ResourceManager和NodeManager)。查看集群状态
hdfs dfsadmin -report
,查看节点状态、存储使用情况等。http://namenode:9870
(HDFS UI)或http://resourcemanager:8088
(YARN UI)。节点管理
slaves
文件中添加新节点主机名,执行hdfs dfsadmin -refreshNodes
刷新节点列表。dfs.hosts.exclude
文件中添加节点主机名,执行hdfs dfsadmin -refreshNodes
,节点会自动进入退役状态。数据平衡与修复
hdfs balancer -threshold 10
(调整阈值,单位为百分比)。hdfs fsck /path -files -blocks -locations
,修复损坏文件可用-delete
参数。高可用(HA)配置
hdfs-site.xml
中dfs.ha.automatic-failover.enabled=true
,实现NameNode自动切换。性能调优
dfs.blocksize=256M
(适合大文件),dfs.replication=2
(测试环境可降低副本数)。core-site.xml
中配置net.topology.script.file.name
,指定机架识别脚本。hadoop fsck
(文件系统检查)、hdfs balancer
(数据平衡)。$HADOOP_HOME/logs
)排查异常。hdfs dfs -chmod
和hdfs dfs -chown
设置文件权限和所有者。参考来源:[1,2,3,5,6,7,8,9,10,11]