Hive调优技巧

发布时间：2020-07-23 22:04:32 作者：Stitch_x
来源：网络阅读：751

1.Fetch抓取

set hive.fetch.task.conversion=more（默认）
1

Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。
该属性设置为 more 以后，在全局查找、字段查找、limit 查找等都不走 MapReduce。设置为none后所有类型的查找语句都要走MapReduce；

2.本地模式

set hive.exec.mode.local.auto=true（开启本地模式）
1

Hive 可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短
1.开启本地模式后需要设置local mr的最大输入数据量，当数据量小于这个值时采用local mr的方式

set hive.exec.mode.local.auto.inputbytes.max=134217728（默认）
1

2.开启本地模式后需要设置local mr的最大输入文件个数，当数据量小于这个值时采用local mr的方式

set hive.exec.mode.local.auto.input.files.max=4（默认）
1

3.表的优化

3.1小表join大表（小表需要在左边.）

注: 新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有明显区别

3.2大表join大表

当一个表内有许多空值时会导致MapReduce过程中,空成为一个key值,对应的会有大量的value值, 而一个key的value会一起到达reduce造成内存不足;所以要想办法过滤这些空值.
1.通过查询所有不为空的结果

   insert overwrite table jointable select n.* from 
   (select * from nullidtable where id is not null ) n left join ori o on n.id = o.id;
12

2.查询出空值并给其赋上随机数,避免了key值为空

insert overwrite table jointable
select n.* from nullidtable n full join ori o on 
case when n.id is null then concat('hive', rand()) else n.id end = o.id;
123

注:此方法可以解决数据倾斜的问题

3.3MapJoin

如果不指定 MapJoin 或者不符合 MapJoin 的条件，那么 Hive 解析器会将 Join 操作转换成 Common Join，即：在 Reduce 阶段完成 join。容易发生数据倾斜。可以用 MapJoin 把小表全部加载到内存在 map 端进行 join，避免 reducer 处理。

设置MapJoin

set hive.auto.convert.join = true(默认)
1

大表小表的阀门值设置(默认25M以下认为是小表):

 set hive.mapjoin.smalltable.filesize=25000000;
1

3.4Group BY

默认情况下，Map 阶段同一 Key 数据分发给一个 reduce，当一个 key 数据过大时就倾斜了并不是所有聚合都在reduce端完成，很多聚合操作都可以现在Map端进行部分聚合，最后在Reduce段得到结果

开启Map端聚合参数设置
是否在Map段进行聚合，默认为true

hive.map.aggr = true
1

在Map端进行聚合操作的条目数

hive.groupby.mapaggr.checkinterval = 100000
1

有数据倾斜的时候进行负载均衡（默认是false）

hive.groupby.skewindata = true
1

注：当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

3.5Count(Distinct)去重统计

Count Distinct是使用了一个mapreduce ，当数据较少时无影响当数据较大时只使用一个MapReduce将很难完成job。这是需要用到分组 Group BY 会使用2个MapReduce完成因为设置了 set mapreduce.job.reduces = 5; 所以第一个MapReduce的过程是通过一个map和5个reduce来完成这样减轻了reduce的负载，虽然会多用一个 Job 来完成，但在数据量大的情况下，这个绝对是值得的。

3.6行列过滤

列处理: 在select中，只拿需要的列，尽量使用分区过滤，少用select*
行处理: 在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在where后面那么就会先全表关联，之后再过滤。

实例：
1.测试先关联两张表，再用 where 条件过滤

hive (default)> select o.id from bigtable bjoin ori o on o.id = b.idwhere o.id <= 10;
1

2.通过子查询后，再关联表

hive (default)> select b.id from bigtable b join (select id from ori where id <= 10 ) o on b.id = o.id;
1

3.7.动态分区

关系型数据库中，对分区表 Insert 数据时候，数据库自动会根据分区字段的值，将数据插入到相应的分区中，Hive 中也提供了类似的机制，即动态分区(Dynamic Partition)，只不过，使用 Hive 的动态分区，需要进行相应的配置。
首先要设置的属性

set hive.exec.dynamic.partition = true;
set hive.exec.dynamic.partition.mode = nonstrict;
set hive.exec.max.dynamic.partitions = 1000;
set hive.exec.max.dynamic.partitions.pernode = 100;
set hive.exec.max.created.files = 100000;
set hive.error.on.empty.partition = false;
123456

模拟动态分区

 insert overwrite table ori_partitioned_target partition (p_time)
select id, time, uid, keyword, url_rank, click_num, click_url, p_time from ori_partitioned;
12

4.数据倾斜

4.1合理设置Map数

设置切片值

set mapreduce.input.fileinputformat.split.maxsize=？？？
1

4.2小文件进行合并

在 map 执行前合并小文件，减少 map 数：CombineHiveInputFormat 具有对小文件进行
合并的功能（系统默认的格式）。HiveInputFormat 没有对小文件合并功能。

set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
1

4.3复杂文件增加Map数

 set mapreduce.job.maps =？？？
1

4.4合理设置Reduce数

1.调整reduce的个数方法一
每个Reduce处理的数据默认是256MB

hive.exec.reducers.bytes.per.reducer=256000000
1

每个任务最大的reduce数，默认为1009

hive.exec.reducers.max=1009
1

计算reduce数的公式

N=min(参数2，总输入数据量/参数1)
1

2.调整reduce个数的方法二

set mapreduce.job.reduces=？？？
1

3.reduce个数不是越多越好

过多的启动和初始化 reduce 也会消耗时间和资源；
另外，有多少个 reduce，就会有多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；在设置 reduce 个数的时候也需要考虑这两个原则：处理大数据量利用合适的 reduce 数；使单个 reduce 任务处理数据量大小要合适；

4.5并行执行

通过设置参数 hive.exec.parallel 值为 true，就可以开启并发执行。不过，在共享集群中，需要注意下，如果 job 中并行阶段增多，那么集群利用率就会增加。

set hive.exec.parallel=true; //打开任务并行执行
set hive.exec.parallel.thread.number=16; //同一个 sql 允许最大并行度，默认为 8。