深度 | 实时历史数据库存储成本惊人,怎么破?

发布时间:2020-08-10 19:11:12 作者:yc98zp
来源:ITPUB博客 阅读:177

作者:胡刀 阿里云运维专家

        舟济 阿里云解决方案架构师

深度 | 实时历史数据库存储成本惊人,怎么破?

实时历史库需求背景

在当今 的数字化时代,随着业务的迅速发展,每天产生的数据量会是一个惊人的数量,数据库存储的成本将会越来越大,通常的做法是对历史数据做归档,即将长期不使用的数据迁移至以文件形式存储的廉价存储设备上,比如阿里云OSS或者阿里云数据库DBS服务
然而在部分核心业务的应用场景下,针对几个月甚至几年前的“旧”数据依旧存在实时的,低频的查询甚至更新需求,比如淘宝/天猫的历史订单查询,企业级办公软件钉钉几年前的聊天信息查询,菜鸟海量物流的历史物流 订单详情等。

如果这时从历史备份中还原后查询,那么查询时间将会是以天为单位,可接受度为0
如果将这些低频但实时的查询需求的历史数据与近期活跃存储在同一套分布式数据库集群下,那么又会带来以下两大挑战
1

实时历史库场景需求分析

通过上面的分析,不管是冷备份还是在线历史数据混合存储在同一张物理表上的方法都是不可取的,一般实时查询历史数据库的场景,一般需要有以下几个关键特性

2

X-Engine引擎介绍

01
X-Engine简介
X-Engine是阿里云数据库产品事业部 自研 的联机事务处理OLTP(On-Line Transaction Processing)数据库存储引擎。作为自研数据库PolarDB 的存储引擎之一,已经广泛应用在阿里集团内部诸多业务系统中,包括交易历史库、钉钉历史库等核心应用,大幅缩减了业务成本,同时也作为双十一大促的关键数据库技术,挺过了数百倍平时流量的冲击。
深度 | 实时历史数据库存储成本惊人,怎么破?
与传统的InnoDB引擎不同,X-Engine使用分层存储架构(LSM-Tree)。分层存储有两个比较显著的优点:
相比InnoDB引擎,依据数据特征,使用X-Engine存储空间可降低至 10%~50% ,我们在著名的Link-Bench和阿里巴巴内部交易业务两个数据集上测试了X-Engine的存储空间效率。在测试中,对比开压缩的InnoDB引擎,X-Engine有着 2倍 空间优势,而对比未开压缩的InnoDB,X-Engine则有着 3~5倍 的优势。 深度 | 实时历史数据库存储成本惊人,怎么破?
02

实时历史库方案,为何选择 X-Engine

1.通常我们默认MySQL是当今最流行的开源数据库,大概率是在线核心数据库集群的首选。相比其他高压缩的存储引擎,引入X-Engine完全无需做任何SQL代码改造,并且支持事务,接入成本最低,学习成本几乎为0

2.写入性能更强,X-Engine相比同为LSM-tree架构的Rocksdb,有超过10倍的性能提升。

3.在存储层引入数据复用技术等,优化Compaction的性能,降低传统LSM-tree架构中Compaction动作对系统资源的冲击,保持系统性能平稳

4.引入多个层级Cache,同时结合Cach回填和预取机制,利用精细化访问机制和缓存技术,弥补传统LSM-tree引擎的读性能短板,X-Engine的点查询能力几乎与Innodb持平

下图是X-Engine与主流历史数据存储方案对比
深度 | 实时历史数据库存储成本惊人,怎么破?
3

实时历史数据库架构设计和实现

01

总体 构思路

基于上文对实时历史库和X-Engine的介绍,阿里云数据库团队推出以X-Engine引擎为历史数据存储核心,同时生态工具DTS作为在线/历史数据流转通道,DMS作为历史数据无风险删除的完整“实时在线-历史库”方案,针对不同的业务场景和客户需求,在具体实现上可能会有所不同,我们提供了多种实时历史库方案的具体实现。主体架构图如下,核心思路为:

深度 | 实时历史数据库存储成本惊人,怎么破?

02

在线库/历史库拆分方案

一般来说,需要使用到实时历史库的场景,数据量都足够大到单台宿主机存放不了。在线数据库可能是根据业务水平或垂直拆分的多个RDS,也可能是一个规模较大的DRDS集群。为了尽可能地保证在线库的性能,推荐将在线库/历史库完全拆分解耦
•  历史库集群存储全量数据
•  通过DTS链路打通在线库和历史库,实时同步
•  DTS链路过滤Delete操作
•  可直接使用新版DMS配置历史数据定期删除
源端为DRDS集群
a.数据同步链路走RDS
• 多条DTS链路打通底层RDS节点,同步性能强
• RDS数量较多可支持API批量创建和配置
• 链路稳定性更好
• 需要保证源端目标端库表数量一致,数据路由规则一致
深度 | 实时历史数据库存储成本惊人,怎么破?
b.数据同步链路走DRDS
• 只需要配置一条DTS链路,方便省钱
• 数据同步性能较差
• 源端DRDS扩容会影响到DTS同步链路
• 源端目标端的实例数量和数据路由规则可自由配置
深度 | 实时历史数据库存储成本惊人,怎么破?
源端为多个RDS
a.目标端为多个RDS
• 业务代码无需任何改造
• 运行后期历史库节点磁盘容量存在风险
深度 | 实时历史数据库存储成本惊人,怎么破?
b.目标端为DRDS集群
数据同步链路走RDS
深度 | 实时历史数据库存储成本惊人,怎么破?
数据同步链路走DRDS
深度 | 实时历史数据库存储成本惊人,怎么破?
03
同实例混用存储引擎方案
在线库/历史库拆分方案相对较为复杂,RDS支持同一实例混用存储引擎。针对总数据量不是特别大的场景,可以考虑同一实例下Innodb&X-Engine引擎混合使用
使用DMS-->数据工厂-->数据编排功能可以轻松地实现同一实例内的数据流动和过期数据删除,架构示意图如下。
深度 | 实时历史数据库存储成本惊人,怎么破?
深度 | 实时历史数据库存储成本惊人,怎么破?
04
DTS赋能在线/历史数据流转
DTS不仅支持全量&增量同步,支持不同数据库产品之间的数据同步,在在线/历史库解决方案中,DTS强大的"条件过滤"功能是非常重要的一环,通过配置DTS任务可以非常便捷地实现过滤Delete操作,动动鼠标点两下即可实现自定义的数据同步策略。

深度 | 实时历史数据库存储成本惊人,怎么破?

深度 | 实时历史数据库存储成本惊人,怎么破?

05

DMS赋能在线库过期数据删除

在线库的过期数据删除既要保障删除效率,也要保证删除过程中对在线库不会造成性能上的抖动,新版DMS支持创建“历史数据清理”的数据变更任务,通过该任务可以非常方便地完成以下工作

• 历史数据定期删除,指定调度时间和一次调度时长
• 大事务拆分,减少事务执行过程中锁表时间过长,避免主备延迟
• 清理遭遇异常中断可重试
• 支持查看任务运行状态和失败原因分析
• 配置方面简洁
深度 | 实时历史数据库存储成本惊人,怎么破?
深度 | 实时历史数据库存储成本惊人,怎么破?
过期数据清理思路

如果没有使用DMS生态工具,也自行实现过期数据删除,但实现较为复杂。一般较为通用的设计思路为将表的主键按照大小做拆分,保证一次删除"恰当数量"的数据,既保证删除效率又不影响线上服务

• 在线库的历史数据删除策略(假设主键为id,数据保存180天,时间属性列为date_col)
  1. 初始化数值Y=select min(id) from $table_name

  2. 到了业务低峰期以后,DELETE FROM $table_name WHERE date_col< SUBDATE(CURDATE(),INTERVAL 180 DAY) and id >= Y and id <=
    Y+100000 ,执行成功后代码层重新赋值 Y=Y+100000

  3. 程序sleep 3s,重复步骤b

  4. 时间到了业务高峰期以后,停止执行,记录下当前的数值Y,第二天执行时直接从Y开始注意

• 在线库历史数据清理注意点
06

极端场景分析

深度 | 实时历史数据库存储成本惊人,怎么破?
在临界时间处理上,实时历史库方案可能遭遇极端场景导致业务可能存在历史库的脏读问题,假设在线库数据保存180天

  1. 更新179天前23时59分59秒的数据,请求路由至在线库

  2. 数据同步链路异常中断或链路存在延迟,该更新请求未能及时到达历史库

  3. 这时业务查询该数据时,由于已经数据已经"旧"到超过180天,请求路由至历史库,由于链路异常,历史库查到了脏数据

解决方法
• 配置链路异常告警,及时发现及时处理
• 预计影响的数据范围为DTS链路恢复前的临界时间点附近数据,建议从业务逻辑上订正数据

• 建议过期数据删除设置保守一点,比如临界时间为180天,过期数据只删除190天以后的数据,方便在极端场景下对比源端目标端的数据情况进行数据订正

4

最佳实践参考

1.X-Engine如何支撑钉钉跃居AppStore第一

2.淘宝万亿级交易订单背后的存储引擎

3.将DRDS中的InnoDB引擎转换为X-Engine引擎

链接: https://help.aliyun.com/document_detail/161316.html

推荐阅读:
  1. Javascript模块化发展,前端的血泪史。
  2. .net实现日志文件重命名且保留历史日志文件

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

历史 存储 实时

上一篇:Jenkins Android gradle只能打包app-release-unsigned.apk

下一篇:强大的CSS:实现平行四边形布局效果

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》