ubuntu

Ubuntu如何搭建Hadoop集群

小樊
36
2025-07-11 22:45:40
栏目: 智能运维

在Ubuntu上搭建Hadoop集群是一个相对复杂的过程,需要仔细规划和执行。以下是一个基本的步骤指南,帮助你在Ubuntu系统上搭建一个Hadoop集群。

前期准备

  1. 选择操作系统版本:建议使用LTS(长期支持)版本,如Ubuntu 18.04或更高版本。
  2. 硬件要求:确保每台机器至少有4GB内存(推荐8GB或更高),足够的磁盘空间(至少20GB可用空间)。
  3. 网络配置:确保所有机器在同一个网络中,能够互相通信。

安装Java

Hadoop依赖于Java环境,因此首先需要安装Java。

sudo apt update
sudo apt install openjdk-8-jdk

验证Java安装:

java -version

安装Hadoop

  1. 下载Hadoop
wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
  1. 解压Hadoop
sudo tar -zxvf hadoop-3.3.6.tar.gz -C /usr/local/
  1. 配置Hadoop环境变量

编辑~/.bashrc文件,添加以下内容:

export HADOOP_HOME=/usr/local/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后,执行以下命令使环境变量生效:

source ~/.bashrc

配置Hadoop集群

  1. 配置文件
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
</configuration>
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/usr/local/hadoop/data/datanode</value>
  </property>
</configuration>
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>
<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>
  1. 配置SSH免密码登录

在所有节点上配置SSH免密码登录,以便后续启动集群。

ssh-keygen -t rsa -P '' -C 'your_email@example.com'
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

在所有节点上编辑/etc/hosts文件,添加以下内容:

<master_node_ip> master_node_name
<slave_node_ip1> slave_node_name1
<slave_node_ip2> slave_node_name2

/usr/local/hadoop-3.3.6/etc/hadoop目录下,编辑slaves文件,添加从节点的主机名:

slave_node_name1
slave_node_name2

启动Hadoop集群

  1. 格式化HDFS

在主节点上执行以下命令格式化HDFS:

hdfs namenode -format
  1. 启动Hadoop服务

在主节点上执行以下命令启动Hadoop服务:

start-dfs.sh
start-yarn.sh
  1. 检查Hadoop服务状态

使用以下命令检查Hadoop服务状态:

jps

你应该能看到以下进程:

验证集群

在浏览器中访问以下地址,查看Hadoop Web界面:

如果成功访问,则表示Hadoop安装成功。

0
看了该问题的人还看了