您好,登录后才能下订单哦!
这篇文章主要介绍“hadoop下Illegal partition for问题怎么处理”,在日常操作中,相信很多人在hadoop下Illegal partition for问题怎么处理问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”hadoop下Illegal partition for问题怎么处理”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
1.背景:
对一个文件中的key进行过滤,需要过滤的key存储在另一个文件中。需要过滤的key数量很大,有上亿条,因此采用bloomfilter等方法不太合适。同时文件中的带过滤的key可能会很多也可能很少。因此采用value二次排序的方法过滤,将需要过滤的key做成key0,真实的key做成key1。使用分区函数和key比较函数将相同的key发送到同一个机器上,只要判断key的第一个key值key0是否存在就可以确定key是否需要过滤。
2.问题:
采用二次排序,需要实现getPartition函数。考虑到hash函数可能返回负数,因此返回是使用了这样一个函数Math.abs(k)%numReduceTasks。 一开始测试的时候没有发现问题,后来将输入文件增多后发现程序会报Illegal partition for错误。
3.处理过程:
直接求助google, 从http://blog.csdn.net/hezuoxiang/article/details/6878026 中看出来,错误是因为分区函数返回了负数,这个值不合理。一时有点懵,难道Math.abs(x)返回的不是正数?再次求助google, 明白了原来x很大(溢出变成负数)或者很小的负数时,即超过了int的表示范围。返回会是个负数。至此,知道了问题的关键,通过hash得到的k值太大,或者太小,超过了int的可表示范围。嗯,c/c++程序员用java写hadoop就是一堆坑要踩。
4.解决方法:
(1) 换一个hash函数,使得hash值在int能表示的范围内。
(2) 对hash函数的值先取模在取绝对值 Math.abs(k % numReduceTasks);。
到此,关于“hadoop下Illegal partition for问题怎么处理”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。