Apache Hudi统一批和近实时分析的存储和服务是什么

发布时间：2021-12-10 09:53:55 作者：柒染
来源：亿速云阅读：188

Apache Hudi统一批和近实时分析的存储和服务是什么，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

下面介绍了Hudi产生的背景及设计，现在看来也很有意义。

分为产生背景、动机、设计、使用案例、demo几个模块讲解。

Uber的行程在2018年已经达到700个城市，70个国家，200w+司机的规模。

而数据在Uber中可分为摄取和查询，而摄取包括从kafka、hdfs上消费数据；查询则包括使用spark notebook的数据科学家，使用Hive/Presto进行ad hoc查询和dashboard展示，使用Spark/Hive构建数据管道或ETL任务等。引入Hudi，Hudi可以管理原始数据集，提供upsert、增量处理语义及快照隔离。

流、批处理会共同消费消息中间件（如kafka）的数据，流处理提供小于1min延迟的结果，批处理提供大约1小时延迟的结果，而批处理结果可修正流处理结果，这是一种典型的Lambda架构，即需要维护两套系统，维护成本会较高。

当使用数据湖后，会提供如下优势：

1.支持最新数据上的Ad hoc查询；

2. 近实时处理（微批），很多业务场景并不需要完全实时；

3. 对于数据的处理更为得当，如检查文件大小，这对HDFS这类存储非常重要，无需重写整个分区的处理；

4. 维护成本更低，如不需要复制数据，也不需要维护多套系统。

Hudi作为Uber开源的数据湖框架，抽象了存储层（支持数据集的变更，增量处理）；为Spark的一个Lib（任意水平扩展，支持将数据存储至HDFS）；开源（现已在Apache孵化）。

Apache Hudi统一批和近实时分析的存储和服务是什么

基于Hudi的架构设计，支持upsert，支持增量处理，支持不同的视图等等，可以看到与典型的Lambda框架不同，此时基于Hudi的分析架构只需要维护Hudi即可，由Hudi提供的能力来满足上层应用不同的需求。

Apache Hudi统一批和近实时分析的存储和服务是什么

Hudi在HDFS上管理了数据集，主要包括索引，数据文件和元数据，并且支持Hive/Presto/Spark进行查询。

Apache Hudi统一批和近实时分析的存储和服务是什么

Hudi提供了三种不同类型的视图，读优化视图、实时视图、增量视图，社区正在重构这三个定义，分别为读优化视图、快照视图、增量视图。

Apache Hudi统一批和近实时分析的存储和服务是什么

对于COW类型，支持读优化视图，对于MOR类型，支持读优化视图、实时视图，而对于最新的发布版而言，COW支持读优化视图和增量视图，MOR支持读优化视图、实时视图和增量视图。

Apache Hudi统一批和近实时分析的存储和服务是什么

Apache Hudi统一批和近实时分析的存储和服务是什么

在COW模式下，读优化视图仅仅读取parquet数据文件，在批次1upsert后，读优化视图读取File1和File2文件；在批次2upsert后，读优化视图读取File 1'和File2文件。

Apache Hudi统一批和近实时分析的存储和服务是什么

使用COW模式可以解决很多问题，但其也存在一些问题，如写方法，即更新的时延会比较大（由于复制整个文件导致）。

Apache Hudi统一批和近实时分析的存储和服务是什么

下面的工作流表示了如何处理延迟到达的更新，更新首先会反应至源表（Source table），然后源表更新至ETL table A，然后更新至ETL table B，这种工作流的延迟更大。

Apache Hudi统一批和近实时分析的存储和服务是什么

根据上面分析，可归纳出如下问题，高社区延迟、写放大、数据新鲜度受限以及小文件问题。

Apache Hudi统一批和近实时分析的存储和服务是什么

与COW模式下更新时复制整个文件不同，可以将更新写入一个增量文件，这样便可降低数据摄取延迟，降低写放大。

Apache Hudi统一批和近实时分析的存储和服务是什么

MOR模式下提供了读优化视图和实时视图。

Apache Hudi统一批和近实时分析的存储和服务是什么

在批次1upsert之后，读优化视图读取的也是Parquet文件，在批次2upsert之后，实时视图读取的是parquet文件和日志文件合并的结果。

Apache Hudi统一批和近实时分析的存储和服务是什么

对比Hudi上不同视图下的权衡，COW下的读优化视图拥有Parquet原生文件读取性能，但数据摄取较慢；MOR下的读优化视图也有parquet原生文件读取性能，但会读取到过期的数据（并未更新）；MOR下实时视图数据摄取性能高，在读的时候会合并；合并（compaction）会将日志文件转化为parquet文件，从实时视图转化为读优化视图。

Apache Hudi统一批和近实时分析的存储和服务是什么

针对compaction（压缩），Hudi提供了基于MVCC无锁的异步压缩方式，这样便可解耦数据摄取，使得数据摄取不受影响。

Apache Hudi统一批和近实时分析的存储和服务是什么

异步压缩会将日志文件和数据文件合并形成新的数据文件，之后读优化视图便可反应最新的数据。

Apache Hudi统一批和近实时分析的存储和服务是什么

Hudi还提供了并发保证，如快照隔离，批次写入的原子性。

Apache Hudi统一批和近实时分析的存储和服务是什么

Hudi使用案例分享

Apache Hudi统一批和近实时分析的存储和服务是什么

在Uber，通过Uber自研的Marmaray消费kafka中的数据，然后再写入Hudi数据湖，每天超过1000个数据集的100TB数据，Hudi管理的数据集大小已经达到10PB。

Apache Hudi统一批和近实时分析的存储和服务是什么

而对于HDFS的典型的小文件问题，Hudi在摄取数据时会自动处理小文件来减轻namenode的压力；支持大文件写入；支持对现有文件的增量更新。

Apache Hudi统一批和近实时分析的存储和服务是什么

Hudi也考虑了数据隐私问题，即数据如何删除，Hudi提供了软删除和硬删除两种方式，软删除不会删除key，只会删除内容，而硬删除会删除key和内容。

Apache Hudi统一批和近实时分析的存储和服务是什么

使用Hudi的增量处理来构建增量管道和dashboard。

Apache Hudi统一批和近实时分析的存储和服务是什么

看完上述内容，你们掌握Apache Hudi统一批和近实时分析的存储和服务是什么的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注亿速云行业资讯频道，感谢各位的阅读！

推荐阅读：

免责声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：is@yisu.com进行举报，并提供相关证据，一经查实，将立刻删除涉嫌侵权内容。

apache hudi

上一篇：Hive中RCFile数据存储格式的示例分析

下一篇：Hive CLI beeline是什么

相关阅读

您好，登录后才能下订单哦！

密码登录

忘记密码？

登录注册

获取短信验证码

其他方式登录

点击登录注册即表示同意《亿速云用户服务条款》

行业资讯-文章归档问答-问答归档