在Ubuntu下搭建Hadoop集群是一个复杂的过程,涉及多个步骤和配置。以下是一个基本的指南,帮助你在Ubuntu上搭建Hadoop集群。
Hadoop依赖于Java运行环境,因此首先需要安装Java。
sudo apt update
sudo apt install openjdk-8-jdk
验证Java安装:
java -version
访问Apache Hadoop官网下载最新版本的Hadoop安装包,例如Hadoop 3.3.5。
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz
sudo tar -zxvf hadoop-3.3.5.tar.gz -C /opt/hadoop
编辑~/.bashrc文件,添加以下内容:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
使配置生效:
source ~/.bashrc
进入Hadoop配置目录:
cd /opt/hadoop
编辑Hadoop配置文件:
sudo nano hadoop-env.sh
添加以下行:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
sudo nano core-site.xml
添加以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
sudo nano hdfs-site.xml
添加以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
sudo nano mapred-site.xml
添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
sudo nano yarn-site.xml
添加以下内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
在终端中,运行以下命令以格式化HDFS文件系统:
hdfs namenode -format
在终端中,使用以下命令启动Hadoop:
start-dfs.sh
start-yarn.sh
在浏览器中访问以下地址,查看Hadoop Web界面:
你应该能够看到Hadoop的Web界面,如果能正常访问,则表示Hadoop集群搭建成功。
请注意,上述信息提供了一般性的指导,具体的配置步骤可能会有所不同,建议根据最新的Hadoop官方文档和实际需求进行调整。