Hive中如何排序

发布时间：2021-12-10 11:05:51 作者：小新
来源：亿速云阅读：248

这篇文章主要为大家展示了“Hive中如何排序”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Hive中如何排序”这篇文章吧。

1、全局排序：order by

order by 子句出现在select语句的结尾；order by子句对最终的结果进行排序；默认使用升序(ASC)；可以使用DESC，跟在字段名之后表示降序；
ORDER BY执行全局排序，只有一个reduce；

-- 按别名排序
select empno, ename, job, mgr, sal + nvl(comm, 0) salcomm, deptno from emp order by salcomm desc;
-- 多列排序
select empno, ename, job, mgr, sal + nvl(comm, 0) salcomm, deptno from emp order by deptno, salcomm desc;

2、每个MR内部排序：sort by

对于大规模数据而言order by效率低；在很多业务场景，我们并不需要全局有序的数据，此时可以使用sort by；sort by为每个reduce产生一个排序文件，在reduce内部进行排序，得到局部有序的结果；

-- 设置reduce个数
set mapreduce.job.reduces=2; -- 按照工资降序查看员工信息 select * from emp sort by sal desc;
-- 将查询结果导入到文件中（按照工资降序）。生成两个输出文件，每个文件内部数据按工资降序排列
insert overwrite local directory '/home/hadoop/output/sortsal' select * from emp sort by sal desc;

3、分区排序：distribute by

distribute by 将特定的行发送到特定的reducer中，便于后继的聚合与排序操作；distribute by 类似于MR中的分区操作，可以结合sort by操作，使分区数据有序；distribute by 要写在sort by之前；

-- 将数据分到3个区中，每个分区都有数据
set mapreduce.job.reduces=3;
insert overwrite local directory '/home/hadoop/output/distBy1' select empno, ename, job, deptno, sal + nvl(comm, 0) salcomm from emp distribute by deptno sort by salcomm desc;

4、cluster by

当distribute by 与 sort by是同一个字段时，可使用cluster by简化语法； cluster by 只能是升序，不能指定排序规则；-- 语法上是等价的
select * from emp distribute by deptno sort by deptno; select * from emp cluster by deptno;

排序小结：
order by。执行全局排序，效率低。生产环境中慎用
sort by。使数据局部有序(在reduce内部有序)
distribute by。按照指定的条件将数据分组，常与sort by联用，使数据局部有序cluster by。

当distribute by 与 sort by是同一个字段时，可使用cluster by简化语法

以上是“Hive中如何排序”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注亿速云行业资讯频道！

Hive中如何排序

相关阅读