HDFS的配置主要依赖core-site.xml和hdfs-site.xml文件(位于$HADOOP_HOME/etc/hadoop目录下),需确保关键配置项设置无误:
core-site.xml:必须包含fs.defaultFS属性,其值应为NameNode的地址(单机环境为hdfs://localhost:9000,集群环境替换为NameNode的实际IP/主机名),例如:<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
hdfs-site.xml:需配置以下核心参数:
dfs.replication:数据副本数(单机环境设为1,集群环境根据节点数量调整,如3);dfs.namenode.name.dir:NameNode元数据存储路径(如/usr/local/hadoop/data/namenode);dfs.datanode.data.dir:DataNode数据存储路径(如/usr/local/hadoop/data/datanode)。hdfs)读写权限。确保Hadoop和Java环境变量已正确配置(通常在~/.bashrc或/etc/profile中):
JAVA_HOME指向Java安装目录(如/usr/lib/jvm/java-8-openjdk-amd64),并将Hadoop的bin和sbin目录加入PATH;HADOOP_HOME为Hadoop安装目录(如/usr/local/hadoop)。source ~/.bashrc(或对应文件)使配置生效。可通过echo $JAVA_HOME、echo $HADOOP_HOME验证变量是否正确。HDFS的数据目录(dfs.namenode.name.dir、dfs.datanode.data.dir)需满足以下条件:
sudo mkdir -p命令创建);hdfs),可通过sudo chown -R hdfs:hdfs /path/to/dir修改权限;df -h命令检查)。首次启动HDFS前,必须格式化NameNode以初始化元数据(执行hdfs namenode -format)。格式化后,检查dfs.namenode.name.dir目录下是否生成fsimage(元数据镜像文件)和edits(操作日志文件)。若未格式化或元数据损坏,需重新格式化(注意:格式化会清除已有数据)。
使用start-dfs.sh命令启动HDFS服务,启动后通过jps命令检查关键进程是否存在:
启动HDFS后,可通过浏览器访问NameNode的Web界面(默认端口50070,如http://localhost:50070),查看HDFS的状态信息:
sudo ufw allow 50070)。通过HDFS命令行工具测试基本操作,验证配置是否可用:
hdfs dfs -mkdir -p /user/test;hdfs dfs -put /path/to/localfile /user/test/remotefile.txt;hdfs dfs -ls /user/test;hdfs dfs -get /user/test/remotefile.txt localfile.txt;hdfs dfs -rm /user/test/remotefile.txt。若上述步骤出现问题,需查看Hadoop的日志文件(位于$HADOOP_HOME/logs目录下),获取具体错误信息:
hadoop-<username>-namenode-<hostname>.log;hadoop-<username>-datanode-<hostname>.log。