在Ubuntu上配置Hadoop的步骤如下:
首先,需要安装Java开发工具包(JDK)。可以通过以下命令安装OpenJDK:
sudo apt update
sudo apt install openjdk-11-jdk
安装完成后,设置JAVA_HOME环境变量:
echo "export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64" >> ~/.bashrc
source ~/.bashrc
java -version
安装并配置SSH服务以实现无密码登录:
sudo apt install openssh-server
sudo systemctl enable ssh
sudo systemctl start ssh
在每个节点上生成SSH密钥对,并将公钥复制到其他节点的authorized_keys文件中:
ssh-keygen -t rsa
ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave2
从Apache Hadoop官网下载对应版本的Hadoop压缩包,并解压到指定目录:
wget http://path/to/hadoop-3.3.1.tar.gz
tar -xzf hadoop-3.3.1.tar.gz -C /opt
编辑~/.bashrc文件,添加Hadoop环境变量:
echo "export HADOOP_HOME=/opt/hadoop-3.3.1" >> ~/.bashrc
echo "export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin" >> ~/.bashrc
source ~/.bashrc
编辑Hadoop配置文件,例如core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml,根据实际需求进行配置。
core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/hadoop/tmp/dfs/data</value>
</property>
</configuration>
mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml:
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
在Master节点上执行以下命令格式化NameNode:
hdfs namenode -format
在Master节点上执行以下命令启动Hadoop集群:
start-dfs.sh
start-yarn.sh
在Master节点上执行以下命令查看Hadoop进程:
jps
如果看到NameNode、DataNode、ResourceManager和NodeManager等进程,则表示Hadoop集群配置成功。
以上步骤为在Ubuntu上配置Hadoop的基本流程,具体配置可能需要根据实际情况进行调整。