怎么搭建Hadoop环境

发布时间:2021-12-09 14:51:11 作者:iii
来源:亿速云 阅读:135

怎么搭建Hadoop环境

1. 概述

Hadoop是一个开源的分布式计算框架,广泛应用于大数据处理。它由Apache基金会开发,旨在处理海量数据的存储和计算。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS负责数据的分布式存储,而MapReduce则负责数据的分布式计算。

搭建Hadoop环境是学习和使用Hadoop的第一步。本文将详细介绍如何在Linux系统上搭建Hadoop环境,包括单节点和伪分布式集群的搭建。

2. 环境准备

在开始搭建Hadoop环境之前,需要准备以下环境和工具:

2.1 安装Java

Hadoop需要Java环境,因此首先需要安装JDK。可以通过以下命令安装OpenJDK 8:

sudo apt update
sudo apt install openjdk-8-jdk

安装完成后,可以通过以下命令检查Java版本:

java -version

2.2 配置SSH

Hadoop使用SSH进行节点间的通信,因此需要配置SSH免密登录。首先,确保SSH服务已安装并启动:

sudo apt install openssh-server
sudo systemctl start ssh

接下来,生成SSH密钥对:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

将公钥添加到authorized_keys文件中:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

测试SSH免密登录:

ssh localhost

如果不需要输入密码即可登录,说明配置成功。

3. 下载并安装Hadoop

3.1 下载Hadoop

可以从Apache Hadoop官网下载最新版本的Hadoop。本文以Hadoop 3.3.1为例:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz

3.2 解压Hadoop

将下载的Hadoop压缩包解压到指定目录:

tar -xzvf hadoop-3.3.1.tar.gz -C /opt/

为了方便使用,可以创建一个软链接:

sudo ln -s /opt/hadoop-3.3.1 /opt/hadoop

3.3 配置环境变量

编辑~/.bashrc文件,添加以下内容:

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效:

source ~/.bashrc

4. 配置Hadoop

Hadoop的配置文件位于$HADOOP_HOME/etc/hadoop目录下。我们需要配置以下几个文件:

4.1 配置hadoop-env.sh

编辑hadoop-env.sh文件,设置Java环境变量:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

4.2 配置core-site.xml

编辑core-site.xml文件,配置Hadoop的核心参数:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop/tmp</value>
    </property>
</configuration>

4.3 配置hdfs-site.xml

编辑hdfs-site.xml文件,配置HDFS的参数:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/opt/hadoop/dfs/data</value>
    </property>
</configuration>

4.4 配置mapred-site.xml

编辑mapred-site.xml文件,配置MapReduce的参数:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

4.5 配置yarn-site.xml

编辑yarn-site.xml文件,配置YARN的参数:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

5. 格式化HDFS

在启动Hadoop之前,需要格式化HDFS:

hdfs namenode -format

6. 启动Hadoop

6.1 启动HDFS

启动HDFS:

start-dfs.sh

6.2 启动YARN

启动YARN:

start-yarn.sh

6.3 检查进程

可以通过以下命令检查Hadoop进程是否启动成功:

jps

如果看到NameNodeDataNodeResourceManagerNodeManager等进程,说明Hadoop启动成功。

7. 访问Hadoop Web界面

Hadoop提供了Web界面,可以通过浏览器访问:

8. 运行示例程序

Hadoop自带了一些示例程序,可以通过以下命令运行WordCount示例:

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /input /output

其中,/input是输入目录,/output是输出目录。可以通过以下命令查看输出结果:

hdfs dfs -cat /output/*

9. 停止Hadoop

停止Hadoop:

stop-yarn.sh
stop-dfs.sh

10. 总结

本文详细介绍了如何在Linux系统上搭建Hadoop环境,包括单节点和伪分布式集群的搭建。通过本文的步骤,您可以成功搭建Hadoop环境,并运行示例程序。Hadoop是一个强大的分布式计算框架,掌握其环境搭建是学习和使用Hadoop的第一步。希望本文对您有所帮助。

推荐阅读:
  1. hadoop环境搭建
  2. hadoop环境初始化搭建

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

hadoop

上一篇:Hadoop中SecondaryNameNode有什么用

下一篇:Hadoop产品有哪些

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》