troubleshooting shuffle reduce端缓冲大小怎么避免OOM

发布时间:2021-12-16 15:02:23 作者:iii
来源:亿速云 阅读:148

这篇文章主要讲解了“troubleshooting shuffle reduce端缓冲大小怎么避免OOM”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“troubleshooting shuffle reduce端缓冲大小怎么避免OOM”吧!

        map端的task是不断的输出数据的,数据量可能是很大的。但是,其实reduce端的task,并不是等到map端task将属于自己的那份数据全部写入磁盘文件之后,再去拉取的。map端写一点数据,reduce端task就会拉取一小部分数据,立即进行后面的聚合、算子函数的应用。

        每次reduece能够拉取多少数据,就由buffer来决定。因为拉取过来的数据,都是先放在buffer中的。然后才用后面的executor分配的堆内存占比(0.2),hashmap,去进行后续的聚合、函数的执行。

reduce端缓冲(buffer),可能会出什么问题?

针对上述的可能出现的问题,我们该怎么来解决呢?

再来说说,reduce端缓冲大小的另外一面,关于性能调优的一面:

一定要注意,资源足够的时候,再去做这个事儿。

spark.reducer.maxSizeInFlight,48
spark.reducer.maxSizeInFlight,24

感谢各位的阅读,以上就是“troubleshooting shuffle reduce端缓冲大小怎么避免OOM”的内容了,经过本文的学习后,相信大家对troubleshooting shuffle reduce端缓冲大小怎么避免OOM这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!

推荐阅读:
  1. 怎么在JavaScript中实现一个shuffle数组
  2. Observer Pattern - An Enterprise JavaBean Implementation (转)

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

shuffle

上一篇:MapReduce中文件名通配与过滤的示例分析

下一篇:Linux sftp命令的用法是怎样的

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》