在Ubuntu上管理HDFS资源可从配置、操作、监控及优化等方面入手,核心要点如下:
基础配置
apt-get安装OpenJDK和Hadoop,配置环境变量(如HADOOP_HOME、PATH)。core-site.xml:设置NameNode地址(fs.defaultFS)和临时目录。hdfs-site.xml:定义数据块大小(dfs.blocksize)、副本数(dfs.replication)及数据存储路径。yarn-site.xml:配置ResourceManager和NodeManager参数,如内存、CPU资源分配。start-dfs.sh和start-yarn.sh启动HDFS和YARN集群。资源管理操作
hdfs dfs -mkdir/-rm -r /path。hdfs dfs -put/get /local/path /hdfs/path。hdfs dfs -chown/-chgrp user:group /path。hdfs dfs -chmod 755 /path。http://resourcemanager:8088)监控集群资源。yarn application -submit/-kill ApplicationID。监控与优化
hdfs dfsadmin -report查看集群健康状态和节点信息。yarn.scheduler.fair.locality.threshold)减少网络传输。fs.trash.interval)和快照机制防止数据误删。高可用与扩展
参考来源: