在Ubuntu上配置Hadoop涉及多个步骤,包括安装Java环境、配置SSH、下载和解压Hadoop、配置Hadoop环境变量以及启动Hadoop服务等。以下是一个基本的配置指南:
首先,确保你的Ubuntu系统上安装了Java。你可以使用以下命令来安装OpenJDK 8:
sudo apt-get update
sudo apt-get install openjdk-8-jdk
安装完成后,配置Java环境变量。编辑~/.bashrc
文件,添加以下内容:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
然后,使配置生效:
source ~/.bashrc
验证Java安装:
java -version
在Hadoop集群中,所有节点之间需要能够无密码SSH登录。
在主节点上生成SSH密钥(如果还没有的话):
ssh-keygen -t rsa
将公钥复制到其他节点:
ssh-copy-id user@slave_node_ip
确保SSH服务在所有节点上运行:
sudo systemctl start ssh
sudo systemctl enable ssh
从Apache Hadoop官网下载最新版本的Hadoop。例如,下载Hadoop 3.3.1:
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
解压到指定目录:
sudo tar -zxvf hadoop-3.3.1.tar.gz -C /usr/local/
编辑~/.bashrc
文件,添加Hadoop环境变量:
export HADOOP_HOME=/usr/local/hadoop-3.3.1
export PATH=$HADOOP_HOME/bin:$PATH
使配置生效:
source ~/.bashrc
进入Hadoop目录并编辑配置文件:
cd /usr/local/hadoop-3.3.1/etc/hadoop/
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/data/datanode</value>
</property>
</configuration>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
在主节点上启动Hadoop集群:
start-dfs.sh
start-yarn.sh
使用以下命令检查Hadoop进程是否正在运行:
jps
你应该能看到类似以下的输出:
1234 NameNode
1235 Secondary NameNode
1236 ResourceManager
1237 NodeManager
/etc/hosts
文件和/etc/hostname
文件配置正确。以上步骤提供了一个基本的指南,具体配置可能会根据你的具体环境和需求有所不同。建议参考Hadoop官方文档以获取更详细的指导。