HBase存储IM消息中RowKey该怎么设计

发布时间:2021-12-08 15:22:25 作者:柒染
来源:亿速云 阅读:266

这篇文章将为大家详细讲解有关HBase存储IM消息中RowKey该怎么设计,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

RowKey是HBase表设计中最重要的一个方面,它决定了应用程序与HBase表的交互方式,还会影响您从HBase中提取数据的性能。

一般IM系统的消息,以会话为维度,按照TimeLine模型存储。

以下是IM系统消息存储的RowKey设计

一、RowKey的格式设计

会话ID和消息ID采用snowflake算法生成,RowKey包括了三部分内容。

会话hash值 | 会话id | 逆序消息id  

HBase存储IM消息中RowKey该怎么设计

会话hash值的目的为数据分区(region)存储,预分区能够分摊数据读写压力;

会话id确定唯一会话,一个群里的所有消息拥有相同的会话id;

逆序消息id确定唯一消息和拉取最新消息序,逆序确保越新的消息id值越小,IM软件里,总是先显示群里的最新消息,向上滑动界面再加载之前的消息

“|”的作用在为分隔数据位。由于部分id可能长度不是一致(snowflake),所以选用了“|”为分隔,确保能够无歧义的反解出个部分数据。

二、region的分区设计

IM业务特点决定,同一会话的消息,一般会集中读取(用户查看某个聊天的消息就是这种场景)。因此需要把同一会话的消息存储在一个分区。我们采用会话id的hash值来做分区字段,能够确保同一会话的消息一定在同一分区。

会话ID采用了改造后的SnowFlake算法(参看《ID生成策略——SnowFlake》),会话id除以2的n次方,数据都能比较平均的分配(如果id没有这个特性,也可以选用其他hash方式)。

在没有采用HBase存储消息之前,消息使用Mysql存储。采用会话Id%4,分为4个库。如下图

HBase存储IM消息中RowKey该怎么设计

HBase依照rowkey实现同样的分区效果,理论上和分库是一个效果。通过会话Id取模后的128个取值均匀散列到了不同region。

HBase存储IM消息中RowKey该怎么设计

分区值为000—127,预分区效果如下图

HBase存储IM消息中RowKey该怎么设计

采用rowkey前置3位预分区,每一个rowkey到来时,选取与region相同位数的前3位进行匹配,例图中,002|…..|….rowkey会选择3位002进行region匹配,然后把数据放入对应分区。

三、消息存取过程

1、依照上述设计格式,我们用传参后的会话Id,002|***|***取模128—以此分散到不同的region;

2、确定具体region后依照rowkey的后续***|312312312312312312312|***的会话Id确定唯一的会话;

3、确定唯一会话后依照rowkey的后续消息Id确定某一个具体消息***|***|8896232141957373907,注意这个消息Id已经被逆序处理(Long.MAX_VALUE-消息Id),用来做拉取最邻近的消息。 

关于HBase存储IM消息中RowKey该怎么设计就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

推荐阅读:
  1. HBase Rowkey设计规范
  2. 基于HBASE的并行计算架构之rowkey设计篇

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

hbase im rowkey

上一篇:Scala中如何实现Trait的调用链

下一篇:Scala中怎么为类混入特定Trait

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》