Java Hadoop的NameNode和SecondaryNameNode有什么用

发布时间:2021-12-09 14:26:15 作者:iii
来源:亿速云 阅读:154

这篇文章主要讲解了“Java Hadoop的NameNode和SecondaryNameNode有什么用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Java Hadoop的NameNode和SecondaryNameNode有什么用”吧!

NN和2NN工作机制

思考:NameNode中的元数据是存储在哪里的?

如果我们假设元数据存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,那么效率肯定很低。因此,元数据需要放在内存中。但如果只存在内存中,一旦断电,元数据就会丢失,整个集群就不能工作了。因此就产生在磁盘中备份元数据的FsImage中。

这样又会有新的问题出现,当内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,又会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。因此,引入Edits文件(这个文件只进行追加操作,效率很高)。每当元数据有更新或者添加元数据时,先把日志记录到Edits中,然后修改内存中的元数据。这样,一旦NameNode节点断电,可以通过FsImage和Edits的合并,合成元数据。

但是,如果长时间添加数据到Edits中,又会导致该文件数据过大,从而效率降低,并且一旦断电,恢复元数据需要的时间过长。因此,需要定期进行FsImage和Edits的合并,如果这个操作由NameNode节点完成,又会效率过低。于是乎第二主角登场了,引入一个新的节点SecondaryNamenode,他的作用就是专门用于FsImage和Edits的合并。

工作机制如图所示

Java Hadoop的NameNode和SecondaryNameNode有什么用

第一阶段:namenode启动

(1)第一次启动namenode格式化后(format),创建fsimage镜像和edits编辑日志文件。如果不是第一次启动,会直接加载编辑日志和镜像文件到内存。

(2)客户端请求元数据进行增删改。

(3)namenode对操作记录日志,更新滚动日志。

(4)然后,namenode对内存的数据进行增删改

第二阶段:Secondary NameNode工作

(1)Secondary NameNode询问namenode是否需要checkpoint,就是是否需要检查。直接带回namenode是否检查结果。

(2)Secondary NameNode请求执行checkpoint,也就是进行检查。

(3)namenode滚动正在写的edits编辑日志

(4)将滚动前的edits编辑日志和fsimage镜像文件拷贝到Secondary NameNode节点

(5)Secondary NameNode加载编辑日志和镜像文件到内存,并且进行合并

(6)生成新的镜像文件fsimage.chkpoint文件

(7)拷贝fsimage.chkpoint到namenode节点

(8)namenode将fsimage.chkpoint重新命名成fsimage,替换了原来的镜像


NN和2NN工作机制详解  

Fsimage:NameNode内存中元数据序列化后形成的文件。

Edits:记录客户端更新元数据信息的每一步操作(可通过Edits运算出元数据)。

NameNode启动时,先滚动Edits并生成一个空的edits.inprogress,然后加载Edits和Fsimage到内存中,此时NameNode内存就持有最新的元数据信息。Client开始对NameNode发送元数据的增删改的请求,这些请求的操作首先会被记录到edits.inprogress中(查询元数据的操作不会被记录在Edits中,因为查询操作不会更改元数据信息),如果此时NameNode挂掉,重启后会从Edits中读取元数据的信息。然后,NameNode会在内存中执行元数据的增删改的操作。

由于Edits中记录的操作会越来越多,Edits文件会越来越大,导致NameNode在启动加载Edits时会很慢,所以需要对Edits和Fsimage进行合并(所谓合并,就是将Edits和Fsimage加载到内存中,照着Edits中的操作一步步执行,最终形成新的Fsimage)。SecondaryNameNode的作用就是帮助NameNode进行Edits和Fsimage的合并工作。

SecondaryNameNode首先会询问NameNode是否需要CheckPoint(触发CheckPoint需要满足两个条件中的任意一个,定时时间到和Edits中数据写满了)。直接带回NameNode是否检查结果。

SecondaryNameNode执行CheckPoint操作,首先会让NameNode滚动Edits并生成一个空的edits.inprogress,滚动Edits的目的是给Edits打个标记,以后所有新的操作都写入edits.inprogress,其他未合并的Edits和Fsimage会拷贝到SecondaryNameNode的本地,然后将拷贝的Edits和Fsimage加载到内存中进行合并,生成fsimage.chkpoint,然后将fsimage.chkpoint拷贝给NameNode,重命名为Fsimage后替换掉原来的Fsimage。

NameNode在启动时就只需要加载之前未合并的Edits和Fsimage即可,因为合并过的Edits中的元数据信息已经被记录在Fsimage中。

chkpoint检查时间参数设置

(1)通常情况下,SecondaryNameNode每隔一小时执行一次。

配置文件:hdfs-default.xml

<property>  <name>dfs.namenode.checkpoint.period</name>  <value>3600</value></property>

(2)一分钟检查一次操作次数,当操作次数达到1百万时,SecondaryNameNode执行一次。

<property>  <name>dfs.namenode.checkpoint.txns</name>  <value>1000000</value><description>操作动作次数</description></property>
<property>  <name>dfs.namenode.checkpoint.check.period</name>  <value>60</value><description> 1分钟检查一次操作次数</description></property>

感谢各位的阅读,以上就是“Java Hadoop的NameNode和SecondaryNameNode有什么用”的内容了,经过本文的学习后,相信大家对Java Hadoop的NameNode和SecondaryNameNode有什么用这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!

推荐阅读:
  1. java写hdfs程序
  2. Java操作HDFS开发环境搭建以及HDFS的读写流程

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

java hadoop

上一篇:Java Hadoop集群时间同步怎么实现

下一篇:HDFS中元数据的示例分析

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》