好程序员大数据培训分享关于kafka的几个重要问题

发布时间:2020-07-01 23:00:18 作者:wx5d42865f47214
来源:网络 阅读:276

  好程序员大数据培训分享关于kafka的几个重要问题:

  1.segment的概念

  topic中会有一个到多个分区,每个分区中会有多个segment,segment的大小在kafka的配置文件里可以设置,segment的大小是相等的,每个segment有多个index文件和对应的数据文件组成的

  2.数据存储机制?(数据写入快的原因)

  首先是broker接收到数据,将数据放到操作系统(linux)的缓存里(pagecache)

  pagecache 会尽可能多的使用空闲内存,会使用sendfile技术尽可能多的减少操作系统和应用程序之间进行重复缓存,写入数据的时候还会用到顺序写入的方式,写入数据的速度可达600m/s

  3.consumer是怎么解决负载均衡问题的?

  当同一个group 的consumer的数量发生改变时,会触发kafka的负载均衡,首先获取consumer消费的起始分区号,再计算出consumer要消费的分区数量,最后用起始分区号的hashcode值模余分区数

1、数据的分发策略

  kafka默认调用自己的分区器(DefaultPartitioner)进行分区,也可以自定义分区器,自定义分区器需要实现Partitioner特质,实现partition方法

2、kafka是怎么保证数据不丢失的?
kafka接收数据以后会根据创建的topic指定的副本数来储存,副本数据是由kafka自己进行同步,多副本机制保证了数据的安全性

3、kafka可以保证topic里的数据全局有序吗

  kafka可以做到分区内有序,分区之间是无序的

  怎么做到全局有序呢?最简单方式是创建分区topic时指定分区数为1

4、如果想消费已经被消费过的数据

  1.采用不同的group。

  2.通过一些配置,就可以将线上产生的数据同步到镜像中去,然后再由特定的集群区处理大批量的数据。


推荐阅读:
  1. 好程序员Python学习路线分享Beeprint怎么用
  2. 好程序员分享大数据的架构体系

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

kafka 大数据培训 好程序员

上一篇:hive中的lateral view结合udtf函数的使用解决生产问题

下一篇:红米Note 4怎么样刷入开发版启用Root权限

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》