在Ubuntu上配置Hadoop是一个相对复杂的过程,涉及多个步骤,包括安装必要的软件、配置环境变量、设置SSH无密码登录以及格式化和启动Hadoop集群。以下是一个详细的步骤指南:
首先,确保你的系统上安装了Java Development Kit (JDK)。你可以通过以下命令安装OpenJDK 8:
sudo apt-get update
sudo apt-get install openjdk-8-jdk
安装完成后,配置JAVA_HOME环境变量:
echo "export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64" >> ~/.bashrc
source ~/.bashrc
验证Java安装:
java -version
安装并配置SSH服务以实现无密码登录:
sudo apt-get install openssh-server
启动SSH服务并设置为开机自启动:
sudo systemctl start ssh
sudo systemctl enable ssh
生成SSH密钥并添加到authorized_keys文件中:
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
从Apache Hadoop官网下载适用于Ubuntu的Hadoop版本,并解压到/usr/local目录下:
wget https://downloads.apache.org/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz
sudo tar -xzf hadoop-3.3.6.tar.gz -C /usr/local/
编辑~/.bashrc文件,添加以下内容:
export HADOOP_HOME=/usr/local/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使环境变量生效:
source ~/.bashrc
进入Hadoop配置文件目录:
cd /usr/local/hadoop-3.3.6/etc/hadoop
编辑core-site.xml文件,添加以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
编辑hdfs-site.xml文件,添加以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
编辑mapred-site.xml文件,添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
编辑yarn-site.xml文件,添加以下内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
在Hadoop主目录下执行以下命令初始化HDFS:
./bin/hdfs namenode -format
启动HDFS和YARN服务:
./sbin/start-dfs.sh
./sbin/start-yarn.sh
打开浏览器,访问http://localhost:50070查看HDFS状态,访问http://localhost:8088查看YARN资源管理器。
如果你想在单台机器上模拟一个小的Hadoop集群,可以按照以下步骤进行配置:
请注意,以上步骤是一个基本的指南,具体配置可能会因版本和特定需求而有所不同。建议参考Hadoop官方文档以获取更详细的指导。