Ubuntu如何搭建Hadoop集群 - 问答

在Ubuntu上搭建Hadoop集群是一个相对复杂的过程，需要仔细规划和执行。以下是一个基本的步骤指南，帮助你在Ubuntu系统上搭建一个Hadoop集群。

前期准备

选择操作系统版本：建议使用LTS（长期支持）版本，如Ubuntu 18.04或更高版本。
硬件要求：确保每台机器至少有4GB内存（推荐8GB或更高），足够的磁盘空间（至少20GB可用空间）。
网络配置：确保所有机器在同一个网络中，能够互相通信。

安装Java

Hadoop依赖于Java环境，因此首先需要安装Java。

sudo apt update
sudo apt install openjdk-8-jdk

验证Java安装：

java -version

安装Hadoop

下载Hadoop：

wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

解压Hadoop：

sudo tar -zxvf hadoop-3.3.6.tar.gz -C /usr/local/

配置Hadoop环境变量：

编辑~/.bashrc文件，添加以下内容：

export HADOOP_HOME=/usr/local/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后，执行以下命令使环境变量生效：

source ~/.bashrc

配置Hadoop集群

配置文件：

core-site.xml：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
</configuration>

hdfs-site.xml：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/usr/local/hadoop/data/datanode</value>
  </property>
</configuration>

mapred-site.xml：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

yarn-site.xml：

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>

配置SSH免密码登录：

在所有节点上配置SSH免密码登录，以便后续启动集群。

ssh-keygen -t rsa -P '' -C 'your_email@example.com'
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

在所有节点上编辑/etc/hosts文件，添加以下内容：

<master_node_ip> master_node_name
<slave_node_ip1> slave_node_name1
<slave_node_ip2> slave_node_name2

在/usr/local/hadoop-3.3.6/etc/hadoop目录下，编辑slaves文件，添加从节点的主机名：

slave_node_name1
slave_node_name2

启动Hadoop集群

格式化HDFS：

在主节点上执行以下命令格式化HDFS：

hdfs namenode -format

启动Hadoop服务：

在主节点上执行以下命令启动Hadoop服务：

start-dfs.sh
start-yarn.sh

检查Hadoop服务状态：

使用以下命令检查Hadoop服务状态：

jps

你应该能看到以下进程：

NameNode
SecondaryNameNode
ResourceManager
NodeManager
DataNode

验证集群

在浏览器中访问以下地址，查看Hadoop Web界面：

NameNode: http://master:50070
ResourceManager: http://master:8088

如果成功访问，则表示Hadoop安装成功。

0 赞

0 踩