CentOS 7中怎么安装Hadoop集群

发布时间：2021-07-12 14:41:45 作者：Leah
来源：亿速云阅读：200

CentOS 7中怎么安装Hadoop集群

引言

Hadoop是一个开源的分布式计算框架，广泛应用于大数据处理。它能够处理海量数据，并且具有高容错性和高扩展性。本文将详细介绍如何在CentOS 7上安装和配置Hadoop集群。

准备工作

系统要求

在开始安装Hadoop之前，确保你的系统满足以下要求：

CentOS 7操作系统
至少2台服务器（1台作为NameNode，1台作为DataNode）
每台服务器至少4GB内存
每台服务器至少20GB磁盘空间
网络配置正确，确保各节点之间可以互相通信

安装Java

Hadoop是基于Java开发的，因此需要先安装Java。以下是安装Java的步骤：

更新系统包：

   sudo yum update -y

安装Java Development Kit (JDK)：

   sudo yum install java-1.8.0-openjdk-devel -y

验证Java安装：

   java -version

如果安装成功，你应该看到类似以下的输出：

   openjdk version "1.8.0_292"
   OpenJDK Runtime Environment (build 1.8.0_292-b10)
   OpenJDK 64-Bit Server VM (build 25.292-b10, mixed mode)

配置SSH无密码登录

Hadoop集群中的各个节点需要通过SSH进行通信，因此需要配置SSH无密码登录。以下是配置步骤：

生成SSH密钥对：

   ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

将公钥复制到所有节点（包括本机）：

   ssh-copy-id user@hostname

其中，user是目标节点的用户名，hostname是目标节点的主机名或IP地址。

验证SSH无密码登录：

   ssh hostname

如果配置成功，你应该能够无需输入密码即可登录到目标节点。

Hadoop集群架构

在Hadoop集群中，通常有以下几种角色：

NameNode：负责管理HDFS的元数据。
DataNode：负责存储实际的数据块。
ResourceManager：负责管理集群资源。
NodeManager：负责在每个节点上管理资源。

在一个简单的Hadoop集群中，通常会有1个NameNode和多个DataNode。ResourceManager和NodeManager可以部署在NameNode或DataNode上。

安装Hadoop

下载Hadoop

访问Hadoop官网下载最新版本的Hadoop。
使用wget命令下载Hadoop：

   wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz

解压Hadoop安装包：

   tar -xzvf hadoop-3.3.1.tar.gz

将解压后的目录移动到/usr/local/hadoop：

   sudo mv hadoop-3.3.1 /usr/local/hadoop

配置Hadoop环境变量

编辑~/.bashrc文件，添加以下内容：

   export HADOOP_HOME=/usr/local/hadoop
   export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使环境变量生效：

   source ~/.bashrc

配置Hadoop集群

配置core-site.xml

编辑$HADOOP_HOME/etc/hadoop/core-site.xml文件，添加以下内容：

   <configuration>
       <property>
           <name>fs.defaultFS</name>
           <value>hdfs://namenode:9000</value>
       </property>
       <property>
           <name>hadoop.tmp.dir</name>
           <value>/usr/local/hadoop/tmp</value>
       </property>
   </configuration>

其中，namenode是NameNode的主机名或IP地址。

配置hdfs-site.xml

编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件，添加以下内容：

   <configuration>
       <property>
           <name>dfs.replication</name>
           <value>2</value>
       </property>
       <property>
           <name>dfs.namenode.name.dir</name>
           <value>/usr/local/hadoop/hdfs/namenode</value>
       </property>
       <property>
           <name>dfs.datanode.data.dir</name>
           <value>/usr/local/hadoop/hdfs/datanode</value>
       </property>
   </configuration>

其中，dfs.replication指定数据块的副本数，dfs.namenode.name.dir和dfs.datanode.data.dir分别指定NameNode和DataNode的存储目录。

配置mapred-site.xml

编辑$HADOOP_HOME/etc/hadoop/mapred-site.xml文件，添加以下内容：

   <configuration>
       <property>
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
       </property>
   </configuration>

该配置指定使用YARN作为MapReduce的计算框架。

配置yarn-site.xml

编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml文件，添加以下内容：

   <configuration>
       <property>
           <name>yarn.nodemanager.aux-services</name>
           <value>mapreduce_shuffle</value>
       </property>
       <property>
           <name>yarn.resourcemanager.hostname</name>
           <value>namenode</value>
       </property>
   </configuration>

其中，yarn.resourcemanager.hostname指定ResourceManager的主机名或IP地址。

配置workers文件

编辑$HADOOP_HOME/etc/hadoop/workers文件，添加所有DataNode的主机名或IP地址：

   datanode1
   datanode2

其中，datanode1和datanode2是DataNode的主机名或IP地址。

启动Hadoop集群

格式化HDFS

在启动Hadoop集群之前，需要先格式化HDFS：

hdfs namenode -format

启动HDFS

启动NameNode和DataNode：

   start-dfs.sh

验证HDFS是否启动成功：

jps

你应该看到NameNode和DataNode进程。

启动YARN

启动ResourceManager和NodeManager：

   start-yarn.sh

验证YARN是否启动成功：

jps

你应该看到ResourceManager和NodeManager进程。

验证Hadoop集群

检查HDFS

在浏览器中访问http://namenode:9870，查看HDFS的状态。
使用以下命令查看HDFS中的文件：

   hdfs dfs -ls /

检查YARN

在浏览器中访问http://namenode:8088，查看YARN的状态。
使用以下命令提交一个简单的MapReduce任务：

   hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 2 5

该命令将计算π的近似值。

常见问题及解决方案

HDFS无法启动：检查core-site.xml和hdfs-site.xml配置是否正确，确保NameNode和DataNode的目录存在且可写。
YARN无法启动：检查yarn-site.xml配置是否正确，确保ResourceManager和NodeManager的目录存在且可写。
SSH无密码登录失败：检查~/.ssh/authorized_keys文件是否存在且权限正确。

总结

本文详细介绍了如何在CentOS 7上安装和配置Hadoop集群。通过本文的步骤，你应该能够成功搭建一个Hadoop集群，并运行简单的MapReduce任务。希望本文对你有所帮助！

CentOS 7中怎么安装Hadoop集群

CentOS 7中怎么安装Hadoop集群

目录

引言

准备工作

系统要求

安装Java

配置SSH无密码登录

Hadoop集群架构

安装Hadoop

下载Hadoop

配置Hadoop环境变量

配置Hadoop集群

配置core-site.xml

配置hdfs-site.xml

配置mapred-site.xml

配置yarn-site.xml

配置workers文件

启动Hadoop集群

格式化HDFS

启动HDFS

启动YARN

验证Hadoop集群

检查HDFS

检查YARN

常见问题及解决方案

总结

相关阅读