使用 Flume NG 实现数据采集平台

发布时间:2020-08-06 04:40:06 作者:水牛sandy
来源:网络 阅读:2135

为什么用Flume NG?#

对Flume NG不了解的朋友可以阅读一下这篇文章Flume NG入门详解 。开源的日志采集方案很多:

选择什么方案主要根据团队积累和习惯,能解决数据采集问题就好。本文主要讲解使用Flume NG搭建数据采集平台。

数据采集平台需求#

数据采集是大数据平台的重要一环,一边需要对接各种数据源,另一边要考虑离线数据对接和实时流式计算需求。总结一下主要需求点:

Flume NG数据采集平台方案#

使用 Flume NG + Kafka,基本能够实现上述平台需求:

我们看看使用Flume NG构建数据采集平台的整体架构:

整个方案通过avro rpc做数据的汇集。为什么中间多了 data collection 这层?增加这层起到数据汇集的作用,datasource节点会很多,如果这些点都直接对接持久化层,那配置是比较多的,而且需要做调整时,涉及的机器和权限太多。多加一层可以使前后耦合降低,中间层机器数量不多,对数据写入,文件数量都有一定优化作用。而且需要增加新的数据持久只需修改几个节点配置。

实际使用中有几个点需要注意和优化:

总结#

Flume NG 是一个很好的数据收集和传输工具,适合二次开发。后面一些实践配置继续给出。



推荐阅读:
  1. 五、spark--spark streaming原理和使用
  2. 一、Flume--数据采集器基本原理和使用

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

flume 数据采集

上一篇:2019全球程序员薪酬,汇众告诉你:软件开发比机器学习更抢手

下一篇:解决phpmyadmin打不开问题

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》