怎么搭建Hadoop环境

发布时间：2021-12-09 14:51:11 作者：iii
来源：亿速云阅读：150

怎么搭建Hadoop环境

1. 概述

Hadoop是一个开源的分布式计算框架，广泛应用于大数据处理。它由Apache基金会开发，旨在处理海量数据的存储和计算。Hadoop的核心组件包括HDFS（Hadoop Distributed File System）和MapReduce。HDFS负责数据的分布式存储，而MapReduce则负责数据的分布式计算。

搭建Hadoop环境是学习和使用Hadoop的第一步。本文将详细介绍如何在Linux系统上搭建Hadoop环境，包括单节点和伪分布式集群的搭建。

2. 环境准备

在开始搭建Hadoop环境之前，需要准备以下环境和工具：

操作系统：Linux（本文以Ubuntu 20.04为例）
Java：Hadoop是基于Java开发的，因此需要安装Java Development Kit (JDK)
SSH：Hadoop使用SSH进行节点间的通信
Hadoop：下载并安装Hadoop

2.1 安装Java

Hadoop需要Java环境，因此首先需要安装JDK。可以通过以下命令安装OpenJDK 8：

sudo apt update
sudo apt install openjdk-8-jdk

安装完成后，可以通过以下命令检查Java版本：

java -version

2.2 配置SSH

Hadoop使用SSH进行节点间的通信，因此需要配置SSH免密登录。首先，确保SSH服务已安装并启动：

sudo apt install openssh-server
sudo systemctl start ssh

接下来，生成SSH密钥对：

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

将公钥添加到authorized_keys文件中：

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

测试SSH免密登录：

ssh localhost

如果不需要输入密码即可登录，说明配置成功。

3. 下载并安装Hadoop

3.1 下载Hadoop

可以从Apache Hadoop官网下载最新版本的Hadoop。本文以Hadoop 3.3.1为例：

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz

3.2 解压Hadoop

将下载的Hadoop压缩包解压到指定目录：

tar -xzvf hadoop-3.3.1.tar.gz -C /opt/

为了方便使用，可以创建一个软链接：

sudo ln -s /opt/hadoop-3.3.1 /opt/hadoop

3.3 配置环境变量

编辑~/.bashrc文件，添加以下内容：

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效：

source ~/.bashrc

4. 配置Hadoop

Hadoop的配置文件位于$HADOOP_HOME/etc/hadoop目录下。我们需要配置以下几个文件：

hadoop-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml

4.1 配置`hadoop-env.sh`

编辑hadoop-env.sh文件，设置Java环境变量：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

4.2 配置`core-site.xml`

编辑core-site.xml文件，配置Hadoop的核心参数：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop/tmp</value>
    </property>
</configuration>

4.3 配置`hdfs-site.xml`

编辑hdfs-site.xml文件，配置HDFS的参数：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/opt/hadoop/dfs/data</value>
    </property>
</configuration>

4.4 配置`mapred-site.xml`

编辑mapred-site.xml文件，配置MapReduce的参数：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

4.5 配置`yarn-site.xml`

编辑yarn-site.xml文件，配置YARN的参数：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

5. 格式化HDFS

在启动Hadoop之前，需要格式化HDFS：

hdfs namenode -format

6. 启动Hadoop

6.1 启动HDFS

启动HDFS：

start-dfs.sh

6.2 启动YARN

启动YARN：

start-yarn.sh

6.3 检查进程

可以通过以下命令检查Hadoop进程是否启动成功：

jps

如果看到NameNode、DataNode、ResourceManager、NodeManager等进程，说明Hadoop启动成功。

7. 访问Hadoop Web界面

Hadoop提供了Web界面，可以通过浏览器访问：

HDFS：http://localhost:9870
YARN：http://localhost:8088

8. 运行示例程序

Hadoop自带了一些示例程序，可以通过以下命令运行WordCount示例：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /input /output

其中，/input是输入目录，/output是输出目录。可以通过以下命令查看输出结果：

hdfs dfs -cat /output/*

9. 停止Hadoop

停止Hadoop：

stop-yarn.sh
stop-dfs.sh

10. 总结

本文详细介绍了如何在Linux系统上搭建Hadoop环境，包括单节点和伪分布式集群的搭建。通过本文的步骤，您可以成功搭建Hadoop环境，并运行示例程序。Hadoop是一个强大的分布式计算框架，掌握其环境搭建是学习和使用Hadoop的第一步。希望本文对您有所帮助。

怎么搭建Hadoop环境

怎么搭建Hadoop环境

1. 概述

2. 环境准备

2.1 安装Java

2.2 配置SSH

3. 下载并安装Hadoop

3.1 下载Hadoop

3.2 解压Hadoop

3.3 配置环境变量

4. 配置Hadoop

4.1 配置hadoop-env.sh

4.2 配置core-site.xml

4.3 配置hdfs-site.xml

4.4 配置mapred-site.xml

4.5 配置yarn-site.xml

5. 格式化HDFS

6. 启动Hadoop

6.1 启动HDFS

6.2 启动YARN

6.3 检查进程

7. 访问Hadoop Web界面

8. 运行示例程序

9. 停止Hadoop

10. 总结

相关阅读

4.1 配置`hadoop-env.sh`

4.2 配置`core-site.xml`

4.3 配置`hdfs-site.xml`

4.4 配置`mapred-site.xml`

4.5 配置`yarn-site.xml`