HDFS在Linux中的集群管理主要涉及安装配置、启动停止、状态监控、节点管理及性能优化等方面,具体操作如下:
安装与配置
sudo apt-get install openjdk-8-jdk(Ubuntu)或 sudo yum install java-1.8.0-openjdk(CentOS)。wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz,然后解压到指定目录。/etc/profile,添加HADOOP_HOME和PATH,执行source /etc/profile。core-site.xml:设置fs.defaultFS=hdfs://namenode:9000。hdfs-site.xml:配置副本数dfs.replication=3、NameNode和DataNode数据目录等。集群启动与停止
start-dfs.sh。stop-dfs.sh。集群状态监控
hdfs dfsadmin -report:查看集群整体状态,包括DataNode数量、磁盘使用等。hdfs fsck /:检查文件系统完整性。节点管理
slaves文件中添加新节点主机名,分发配置文件到新节点。hdfs-daemon.sh start datanode启动DataNode。hdfs dfsadmin -refreshNodes刷新节点列表。hdfs-site.xml中配置dfs.hosts.exclude文件,添加需删除节点的主机名。hdfs dfsadmin -refreshNodes使配置生效,节点会进入“decommissioning”状态,数据迁移完成后可彻底移除。性能优化
hdfs-site.xml中修改dfs.blocksize(如128MB/256MB)和dfs.replication。core-site.xml中配置net.topology.script.file.name,指定机架识别脚本,确保副本跨机架存储。hdfs balancer命令手动平衡集群数据分布。权限与安全
hdfs dfs -chmod和hdfs dfs -chown命令管理文件/目录权限。hdfs dfsadmin -setSpaceQuota和-setQuota限制目录的存储空间和文件数量。注意事项: