如何以本地和伪分布式模式安装Hadoop

发布时间：2021-11-12 13:55:40 作者：小新
来源：亿速云阅读：202

这篇文章主要为大家展示了“如何以本地和伪分布式模式安装Hadoop”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“如何以本地和伪分布式模式安装Hadoop”这篇文章吧。

一、预备知识

a) 支持平台

l GNU/Linux的开发平台和生产平台都支持。

l Windows也支持（不推荐，这篇文章也不讲）。

b) 必须的软件

i. hadoop是java开发的，所以必须安装java环境。

ii. 需要启动sshd服务，hadoop要通过ssh管理远程守护进程。

c) 安装软件

如果你的集群没有安装上面所说的软件，你首先需要安装它们。

i. 安装java。

ii. 安装ssh。

二、下载

下载hadoop2.4版本。

三、准备启动hadoop

解压下载的hadoop压缩包。编辑文件etc/hadoop/hadoop-env.sh。添加或定义下面两个参数：

#设置java安装目录
export JAVA_HOME=/usr/java/jdk_***
#设置你的hadoop安装目录
export HADOOP_PREFIX=/usr/local/hadoop

使用下面的命令进行验证：

bin/hadoop

如果设置成功会显示hadoop命令的使用文档。

现在你能够使用下面三种方式安装你的hadoop集群了。

l 本地模式

l 伪分布模式

l 分布模式

四、本地模式

Hadoop默认配置就是本地模式，在一个java进程中允许hadoop。这中模式常用来进行调试。

用下面的方式进行验证一下：

mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.0.jar grep input output 'dfs[a-z.]+'

如果output中有结果就对了。

cat output/*

五、伪分布模式

Hadoop也可以在一个单节点上一以伪分布的方式运行。Hadoop的每个守护进程分别以不同的java进程运行。

a) 配置

etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

b) Ssh免密码登录

l Ssh免密码登录

c) 启动

下面的例子是在本地运行mapreduce程序，如果你想在yarn上运行mapreduce，请看yarn单节点安装。

i. 格式化文件系统。

bin/hdfs namenode -format

ii. 启动namenode守护进程和datanode守护进程：

sbin/start-dfs.sh

Hadoop守护进程日志输出目录通过$HADOOP_LOG_DIR指定（默认为$HADOOP_HOME/logs）

iii. 通过浏览器浏览namenode：

http://localhost:50070/

iv. 在hdfs上创建文件夹,用来执行mapreduce程序。

bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/<username>

v. 复制文件到hdfs上：

bin/hdfs dfs -put etc/hadoop input

vi. 运行示例程序

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.0.jar grep input output 'dfs[a-z.]+'

vii. 检查输出文件

bin/hdfs dfs -cat output/*

viii. 关闭hdfs守护进程。

sbin/stop-dfs.sh

六、Yarn单点安装

通过设置一些参数，并运行ResourceManagers守护进程和NodeManager守护进程。我们也可以在yarn上以伪分布模式运行mapreducer任务。

a) 配置

etc/hadoop/mapred-side.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

b) 启动ResourceManager守护进程和NodeManager 守护进程。

sbin/start-yarn.sh

c) 通过浏览器查看ResourceManager：

http://localhost:8088/

d) 运行mapreduce任务。

e) 运行完任务的时候，关闭守护进程

sbin/stop-yarn.sh

以上是“如何以本地和伪分布式模式安装Hadoop”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注亿速云行业资讯频道！

如何以本地和伪分布式模式安装Hadoop

相关阅读