在Linux系统上搭建Hadoop集群是一个相对复杂的过程,需要仔细规划和执行多个步骤。以下是一个基本的指南,帮助你在CentOS 7等Linux发行版上搭建Hadoop集群。
Hadoop是基于Java开发的,因此需要在每台服务器上安装Java。
# 安装OpenJDK 8
sudo yum install -y java-1.8.0-openjdk-devel
从Hadoop官方网站下载最新版本的Hadoop,并解压到指定目录。
# 下载Hadoop 3.3.1
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
# 解压到/usr/local/hadoop
tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/hadoop
编辑~/.bashrc
或/etc/profile
文件,添加Hadoop的环境变量。
# 编辑 ~/.bashrc 文件
echo 'export HADOOP_HOME=/usr/local/hadoop' >> ~/.bashrc
echo 'export PATH=$PATH:$HADOOP_HOME/bin' >> ~/.bashrc
# 使配置生效
source ~/.bashrc
进入Hadoop配置目录($HADOOP_HOME/etc/hadoop
),编辑以下配置文件:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://namenode:9000</value>
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/data/namenode</value>
</property>
</configuration>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>resourcemanager</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
在每台服务器上生成SSH密钥对,并将公钥添加到其他节点的authorized_keys
文件中。
# 生成SSH密钥对
ssh-keygen -t rsa
# 将公钥复制到其他节点
ssh-copy-id user@node2
ssh-copy-id user@node3
在主节点上格式化HDFS。
hdfs namenode -format
在主节点上启动HDFS和YARN服务。
# 启动HDFS
$HADOOP_HOME/sbin/start-dfs.sh
# 启动YARN
$HADOOP_HOME/sbin/start-yarn.sh
使用以下命令检查Hadoop集群的状态。
# 查看HDFS状态
hdfs dfsadmin -report
# 查看YARN状态
yarn node -list
打开浏览器,访问http://namenode:9000
查看HDFS的状态,访问http://resourcemanager:8088
查看YARN的状态。
以上步骤提供了一个基本的Hadoop集群搭建流程。根据具体需求和环境,可能还需要进行更多的配置和优化。建议参考Hadoop官方文档进行详细配置和调优。