在Ubuntu上使用HDFS(Hadoop Distributed File System)涉及多个步骤,包括安装Hadoop、配置Hadoop环境、启动HDFS服务以及验证其运行状态。以下是一个详细的指南:
Hadoop依赖于Java运行环境,因此首先需要安装Java。
sudo apt update
sudo apt install openjdk-8-jdk
安装完成后,验证Java版本:
java -version
从Hadoop官网下载最新版本的Hadoop安装包,并解压到指定目录。例如,下载Hadoop 3.3.4版本并解压到/opt目录:
cd /opt
sudo wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
sudo tar -zxvf hadoop-3.3.4.tar.gz
cd hadoop-3.3.4
编辑~/.bashrc文件,添加以下内容:
export HADOOP_HOME=/opt/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然后,重新加载配置文件:
source ~/.bashrc
sudo groupadd hadoop
sudo useradd -g hadoop hadoop
设置文件权限:
sudo chgrp hadoop /opt/hadoop-3.3.4
sudo chmod 755 /opt/hadoop-3.3.4
sudo chown -R hadoop:hadoop /opt/hadoop-3.3.4
编辑Hadoop配置文件:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
在Hadoop用户下,运行以下命令格式化HDFS:
sudo -u hadoop hdfs namenode -format
启动HDFS和YARN服务:
sudo -u hadoop sbin/hadoop-daemon.sh start namenode
sudo -u hadoop sbin/hadoop-daemon.sh start secondarynamenode
sudo -u hadoop sbin/yarn-daemon.sh start resourcemanager
sudo -u hadoop sbin/yarn-daemon.sh start nodemanager
检查HDFS是否运行:
jps
应看到NameNode和SecondaryNameNode进程。
检查YARN状态:
yarn-daemon.sh status resourcemanager
yarn-daemon.sh status nodemanager
应看到ResourceManager和NodeManager进程。
通过以上步骤,您已经在Ubuntu上成功安装并配置了Hadoop,并启动了HDFS服务。现在,您可以开始使用Hadoop进行大数据处理了。