如何进行基于mdrill的大数据分析

发布时间：2021-12-29 12:00:41 作者：柒染
来源：亿速云阅读：164

如何进行基于mdrill的大数据分析，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

项目简介

mdrill是由阿里开源的一套数据的软件，针对TB级数据量，能够仅用10台机器，达到秒级响应，数据能实时导入,可以对任意的维度进行组合与过滤。
mdrill作为数据在线分析处理软件，可以在几秒到几十秒的时间，分析百亿级别的任意组合维度的数据。
在阿里10台机器完成每日30亿的数据存储，其中10亿为实时的数据导入，20亿为离线导入。目前集群的总存储1000多亿80~400维度的数据。

mdrill的特性

1.满足大数据查询需求：adhoc每天的数据量为30亿条，随着日积月累，数据会越来越大，mdrill采用列存储，索引，分布式技术，适当的分区等满足用户对数据的实时在线分析的需求。
2.支持增量更新：离线形式的mdrill数据支持按照分区方式的增量更新。
3.支持实时数据导入：在仅有10台机器的情况下，支持每天10亿级别（高峰每小时2亿）的实时导入。
4.响应时间快：列存储、倒排索引、高效的数据压缩、内存计算，各种缓存、分区、分布式处理等等这些技术，使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。
5.低成本：目前在阿里adhoc仅仅使用10台48G内存的PC机，但确存储了超过千亿规模的数据。
6.全文检索模式：强大的条件设置，任意组合，无论难易秒级预览，每天160亿的数据随意筛选。

mdrill数据量的增长

时间点	数据量	事件
12年12月	小于2亿	adhoc首次上线
13年1月	20~30亿	由2台机器扩容到了10台
13年5月2日	100亿	首次过百亿
13年7月24日	400亿	首次开源
13年11月	1000亿	全文检索模式ods_allpv_ad_d上线
13年12月	1500亿	实时数据以及无线数据的接入
14年2月	3200亿	目前只有11台机器，硬盘使用率30%

看完上述内容，你们掌握如何进行基于mdrill的大数据分析的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注亿速云行业资讯频道，感谢各位的阅读！

如何进行基于mdrill的大数据分析

项目简介

mdrill的特性

mdrill数据量的增长

相关阅读