hadoop3.3集群搭建方法

发布时间：2021-07-28 18:18:43 作者：chen
来源：亿速云阅读：424

Hadoop 3.3 集群搭建方法

1. 概述

Hadoop 是一个开源的分布式计算框架，广泛应用于大数据处理。Hadoop 3.3 是 Hadoop 3.x 系列的一个稳定版本，提供了许多新特性和改进。本文将详细介绍如何在多台服务器上搭建 Hadoop 3.3 集群。

2. 环境准备

在开始搭建 Hadoop 集群之前，需要确保所有节点满足以下要求：

操作系统：Linux（推荐使用 CentOS 7 或 Ubuntu 18.04）
Java：JDK 8 或更高版本
SSH：所有节点之间可以通过 SSH 无密码登录
网络：所有节点之间可以互相通信

2.1 安装 Java

在所有节点上安装 JDK 8 或更高版本。可以通过以下命令安装 OpenJDK 8：

sudo apt-get update
sudo apt-get install openjdk-8-jdk

安装完成后，检查 Java 版本：

java -version

2.2 配置 SSH 无密码登录

在集群中，主节点需要通过 SSH 无密码登录到其他节点。首先在主节点上生成 SSH 密钥：

ssh-keygen -t rsa

将生成的公钥复制到所有节点（包括主节点本身）：

ssh-copy-id user@node1
ssh-copy-id user@node2
ssh-copy-id user@node3

确保可以通过 SSH 无密码登录到所有节点。

3. 下载并安装 Hadoop

3.1 下载 Hadoop

在主节点上下载 Hadoop 3.3 的二进制包：

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz

解压缩下载的文件：

tar -xzvf hadoop-3.3.1.tar.gz

将解压后的目录移动到 /usr/local/hadoop：

sudo mv hadoop-3.3.1 /usr/local/hadoop

3.2 配置环境变量

编辑 /etc/profile 文件，添加以下内容：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效：

source /etc/profile

4. 配置 Hadoop

4.1 配置 `hadoop-env.sh`

编辑 $HADOOP_HOME/etc/hadoop/hadoop-env.sh 文件，设置 JAVA_HOME：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

4.2 配置 `core-site.xml`

编辑 $HADOOP_HOME/etc/hadoop/core-site.xml 文件，添加以下内容：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://namenode:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

4.3 配置 `hdfs-site.xml`

编辑 $HADOOP_HOME/etc/hadoop/hdfs-site.xml 文件，添加以下内容：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/hdfs/datanode</value>
    </property>
</configuration>

4.4 配置 `mapred-site.xml`

编辑 $HADOOP_HOME/etc/hadoop/mapred-site.xml 文件，添加以下内容：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

4.5 配置 `yarn-site.xml`

编辑 $HADOOP_HOME/etc/hadoop/yarn-site.xml 文件，添加以下内容：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>namenode</value>
    </property>
</configuration>

4.6 配置 `workers`

编辑 $HADOOP_HOME/etc/hadoop/workers 文件，添加所有数据节点的 hostname：

node1
node2
node3

5. 分发 Hadoop 配置

将配置好的 Hadoop 目录复制到所有节点：

scp -r /usr/local/hadoop user@node1:/usr/local/
scp -r /usr/local/hadoop user@node2:/usr/local/
scp -r /usr/local/hadoop user@node3:/usr/local/

6. 启动 Hadoop 集群

6.1 格式化 HDFS

在主节点上格式化 HDFS：

hdfs namenode -format

6.2 启动 HDFS

在主节点上启动 HDFS：

start-dfs.sh

6.3 启动 YARN

在主节点上启动 YARN：

start-yarn.sh

6.4 检查集群状态

使用以下命令检查集群状态：

hdfs dfsadmin -report
yarn node -list

7. 验证集群

7.1 创建 HDFS 目录

在 HDFS 上创建一个目录：

hdfs dfs -mkdir /test

7.2 上传文件到 HDFS

上传一个本地文件到 HDFS：

hdfs dfs -put /path/to/local/file /test

7.3 运行 MapReduce 作业

运行一个简单的 MapReduce 作业：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /test/input /test/output

8. 常见问题及解决方法

8.1 SSH 无密码登录失败

确保所有节点的 SSH 服务已启动，并且主节点的公钥已正确复制到所有节点的 ~/.ssh/authorized_keys 文件中。

8.2 HDFS 无法启动

检查 hdfs-site.xml 配置文件中的路径是否正确，并确保所有节点的网络连接正常。

8.3 YARN 无法启动

检查 yarn-site.xml 配置文件中的 yarn.resourcemanager.hostname 是否正确设置为 NameNode 的 hostname。

9. 总结

通过以上步骤，您已经成功搭建了一个 Hadoop 3.3 集群。Hadoop 集群的搭建是一个复杂的过程，需要仔细配置和验证。希望本文能够帮助您顺利完成 Hadoop 集群的搭建，并为后续的大数据处理工作打下坚实的基础。

注意：本文档中的配置和命令仅供参考，实际部署时可能需要根据具体环境进行调整。