storm处理数据的两种模式是什么

发布时间:2021-12-23 11:54:28 作者:iii
来源:亿速云 阅读:169

这篇文章主要介绍“storm处理数据的两种模式是什么”,在日常操作中,相信很多人在storm处理数据的两种模式是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”storm处理数据的两种模式是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

1、Storm简介

storm是一个分布式、容错的实时计算系统,起先被托管在GitHub上,遵循Eclipse  Public  License 1.0  。Storm是由BackType开发的实时处理系统,由Twitter开源

2013年,Storm进入Apache社区进行孵化;

2014年9月,晋级为Apache顶级项目

官网  http://storm.apache.org/

hadoop和storm的区别:hadoop反复启动停止,数据反复落地耗费时间,storm采用流式处理,数据不落地

数据来源:hadoop的数据是hdfs上的TB级别数据,storm是实时新增的数据;

处理过程:hadoop是分为split 、map、shuffler  、reduce等阶段、storm是由用户定义流程,流程中可以包含多个步骤,每个步骤可以是数据源(spout)或处理逻辑(bolt)

是否结束:hadoop最后是要结束的;storm是没有结束的,数据处理完是要等待新数据的进入的。

处理速度:hadoop处理堆积的数据,速度慢,storm只是处理新增的数据,时效性较高;

2、Storm架构:

Nimbus:管事,但是可以不存在,如果Nimbus挂掉,之前提价的job可以继续进行处理,后续不能继续提交,因此Nimbus的主要作用是提交任务和通过zk与Supervisor进行沟通;相当于Leader

Supervisor:

Worker

编程模型

DAG:有向无环图

Spout:源头

Bolt:bolt处理完数据会使用消息框架将信息返回给上一个Bolt或Spout;

数据传输:storm底层传输数据使用zmq或者netty

    zmq

        zmq是开源的消息传递框架;(0.9版本以上已经不用了)

   Netty

        netty是NIO的网络框架,效率比较高。之所以有netty事storm在apache之后,zmq遵循linux的协议,netty遵循的协议比较宽松。

高可用:

    异常处理,就是异常崩溃,也不影响,例如supervisor挂了,nimbus会重新调度

    消息可靠性机制保证,ack机制

可维护:

    storm UI

3、Storm处理数据的两种模式:

实时请求应答模式(同步)

Client  ----》DRPC  Server  ----》Spout---》Bolt-----》Return---》(返回给前面的drpc  server  然后再返回给Client)

对应DRPC  Server 有不同的Spout  --》DRPC  Spout  ,Topology(拓扑结构)、ReturnResult

流式处理(异步)

Client---》MQ--->Sport------>Bolt1----->bolt2--------->Storage(redis、hbase、Mysql、mq等)

        <----

Storm的wordCount

1、随机生成数据

2、切割单词

3、hash不同单词到不同的任务上去

到此,关于“storm处理数据的两种模式是什么”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!

推荐阅读:
  1. storm的本地模式demo怎么实现
  2. Storm的2种运行模式

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

storm

上一篇:Storm DRPC集群搭建的方法是什么

下一篇:mysql中出现1053错误怎么办

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》