如何以本地和伪分布式模式安装Hadoop

发布时间:2021-11-12 13:55:40 作者:小新
来源:亿速云 阅读:153

这篇文章主要为大家展示了“如何以本地和伪分布式模式安装Hadoop”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“如何以本地和伪分布式模式安装Hadoop”这篇文章吧。

一、预备知识

a) 支持平台

l GNU/Linux的开发平台和生产平台都支持。

l Windows也支持(不推荐,这篇文章也不讲)。

b) 必须的软件

i. hadoop是java开发的,所以必须安装java环境。

ii. 需要启动sshd服务,hadoop要通过ssh管理远程守护进程。

c) 安装软件

如果你的集群没有安装上面所说的软件,你首先需要安装它们。

i. 安装java。

ii. 安装ssh。

二、下载

  下载hadoop2.4版本。

三、准备启动hadoop

解压下载的hadoop压缩包。编辑文件etc/hadoop/hadoop-env.sh。添加或定义下面两个参数:

#设置java安装目录
export JAVA_HOME=/usr/java/jdk_***
#设置你的hadoop安装目录
export HADOOP_PREFIX=/usr/local/hadoop

使用下面的命令进行验证:

bin/hadoop

如果设置成功会显示hadoop命令的使用文档。

现在你能够使用下面三种方式安装你的hadoop集群了。

l 本地模式

l 伪分布模式

l 分布模式

四、本地模式

Hadoop默认配置就是本地模式,在一个java进程中允许hadoop。这中模式常用来进行调试。

用下面的方式进行验证一下:

mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.0.jar grep input output 'dfs[a-z.]+'

如果output中有结果就对了。

cat output/*

五、伪分布模式

Hadoop也可以在一个单节点上一以伪分布的方式运行。Hadoop的每个守护进程分别以不同的java进程运行。

a) 配置

etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

b) Ssh免密码登录

l Ssh免密码登录

c) 启动

下面的例子是在本地运行mapreduce程序,如果你想在yarn上运行mapreduce,请看yarn单节点安装。

i. 格式化文件系统。

bin/hdfs namenode -format

ii. 启动namenode守护进程和datanode守护进程:

sbin/start-dfs.sh

Hadoop守护进程日志输出目录通过$HADOOP_LOG_DIR指定(默认为$HADOOP_HOME/logs)

iii. 通过浏览器浏览namenode:

http://localhost:50070/

iv. 在hdfs上创建文件夹,用来执行mapreduce程序。

bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/<username>

v. 复制文件到hdfs上:

bin/hdfs dfs -put etc/hadoop input

vi. 运行示例程序

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.0.jar grep input output 'dfs[a-z.]+'

vii. 检查输出文件

bin/hdfs dfs -cat output/*

viii. 关闭hdfs守护进程。

sbin/stop-dfs.sh

六、Yarn单点安装

通过设置一些参数,并运行ResourceManagers守护进程和NodeManager守护进程。我们也可以在yarn上以伪分布模式运行mapreducer任务。

a) 配置

etc/hadoop/mapred-side.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

     etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

b) 启动ResourceManager守护进程和NodeManager 守护进程。

sbin/start-yarn.sh

c) 通过浏览器查看ResourceManager:

http://localhost:8088/

d) 运行mapreduce任务。

e) 运行完任务的时候,关闭守护进程

sbin/stop-yarn.sh

以上是“如何以本地和伪分布式模式安装Hadoop”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!

推荐阅读:
  1. Hadoop伪分布式安装
  2. hadoop单机及伪分布式

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

hadoop

上一篇:window performance各字段的含义是什么

下一篇:Django中的unittest应用是什么

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》