在Ubuntu上管理HDFS资源可从配置、操作、监控及优化等方面入手,核心要点如下:
基础配置
apt-get
安装OpenJDK和Hadoop,配置环境变量(如HADOOP_HOME
、PATH
)。core-site.xml
:设置NameNode地址(fs.defaultFS
)和临时目录。hdfs-site.xml
:定义数据块大小(dfs.blocksize
)、副本数(dfs.replication
)及数据存储路径。yarn-site.xml
:配置ResourceManager和NodeManager参数,如内存、CPU资源分配。start-dfs.sh
和start-yarn.sh
启动HDFS和YARN集群。资源管理操作
hdfs dfs -mkdir/-rm -r /path
。hdfs dfs -put/get /local/path /hdfs/path
。hdfs dfs -chown/-chgrp user:group /path
。hdfs dfs -chmod 755 /path
。http://resourcemanager:8088
)监控集群资源。yarn application -submit/-kill ApplicationID
。监控与优化
hdfs dfsadmin -report
查看集群健康状态和节点信息。yarn.scheduler.fair.locality.threshold
)减少网络传输。fs.trash.interval
)和快照机制防止数据误删。高可用与扩展
参考来源: