在Ubuntu系统上配置HDFS(Hadoop分布式文件系统)需完成环境准备、Hadoop安装、配置文件修改、服务启动及验证等步骤,以下是具体操作指南:
sudo apt update && sudo apt upgrade -y,确保系统软件包为最新版本。sudo apt install -y build-essential openssh-server。Hadoop依赖Java运行环境,推荐使用OpenJDK 8(兼容性最佳):
sudo apt install -y openjdk-8-jdk。java -version,应输出Java版本信息(如openjdk version "1.8.0_XXX")。wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz。/usr/local/,命令:sudo tar -xzvf hadoop-3.3.4.tar.gz -C /usr/local/。hadoop:sudo mv /usr/local/hadoop-3.3.4 /usr/local/hadoop。~/.bashrc(当前用户)或/etc/profile(全局),添加以下内容:export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc(或source /etc/profile),使环境变量立即生效。进入Hadoop配置目录$HADOOP_HOME/etc/hadoop,修改以下关键文件:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value> <!-- NameNode地址 -->
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value> <!-- 副本数(单节点设为1,集群需调整) -->
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/data/namenode</value> <!-- NameNode元数据存储路径 -->
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/data/datanode</value> <!-- DataNode数据存储路径 -->
</property>
</configuration>
sudo mkdir -p /usr/local/hadoop/data/namenode
sudo mkdir -p /usr/local/hadoop/data/datanode
sudo chown -R $USER:$USER /usr/local/hadoop/data
(注:若使用hdfs用户运行Hadoop,需替换为hdfs:hdfs,并提前创建hdfs用户。)首次启动HDFS前,必须格式化NameNode(初始化元数据):
hdfs namenode -format
格式化后会生成VERSION文件和edits日志,用于存储HDFS的元数据信息。
start-dfs.sh,该命令会自动启动NameNode和DataNode服务。start-yarn.sh,启动ResourceManager和NodeManager。jps,应看到以下进程(单节点模式):NameNode
DataNode
SecondaryNameNode(可选,用于NameNode故障恢复)
http://localhost:50070(Hadoop 3.x版本为http://localhost:9870)。http://localhost:8088(若启动了YARN)。允许Hadoop所需端口通过防火墙,避免网络拦截:
sudo ufw allow 9000 # NameNode RPC端口
sudo ufw allow 50070 # NameNode Web界面端口(Hadoop 3.x为9870)
sudo ufw allow 8088 # ResourceManager Web界面端口
sudo chown -R $USER:$USER /usr/local/hadoop/data)。netstat -tulnp | grep 端口号查找占用进程,终止或修改Hadoop配置中的端口号。按照以上步骤操作,即可在Ubuntu系统上成功配置并启动HDFS环境。如需扩展为集群模式,还需配置多节点的SSH无密码登录、修改slaves文件(指定DataNode节点)及调整hdfs-site.xml中的副本数等参数。