Hive如何实现查询

发布时间：2021-12-10 11:39:52 作者：小新
来源：亿速云阅读：324

# Hive如何实现查询

## 1. Hive查询概述

Apache Hive是建立在Hadoop之上的数据仓库基础设施，它提供了一种类似SQL的查询语言（HiveQL）来查询和管理存储在分布式存储系统中的大数据集。Hive将SQL查询转换为MapReduce、Tez或Spark作业在Hadoop集群上执行，使得非程序员也能利用熟悉的SQL语法处理大数据。

Hive查询的核心实现机制包括：
- SQL到MapReduce/Tez/Spark的转换
- 元数据管理和优化
- 查询执行引擎
- 数据存储格式处理

## 2. Hive查询执行架构

### 2.1 主要组件

Hive查询处理涉及以下核心组件：

1. **Driver**：接收查询请求，创建会话句柄，管理查询生命周期
2. **Compiler**：解析查询，执行语义分析，生成执行计划
3. **Optimizer**：对执行计划进行优化（列剪枝、谓词下推等）
4. **Executor**：执行优化后的执行计划
5. **Metastore**：存储表结构、分区信息等元数据

### 2.2 查询执行流程

```mermaid
graph TD
    A[用户提交HiveQL查询] --> B[Driver]
    B --> C[Compiler]
    C --> D[解析器生成AST]
    D --> E[语义分析]
    E --> F[逻辑计划生成]
    F --> G[优化器优化]
    G --> H[物理计划生成]
    H --> I[执行引擎执行]
    I --> J[返回结果]

3. 查询解析与编译

3.1 SQL解析阶段

Hive使用Antlr解析器将SQL查询转换为抽象语法树（AST）：

SELECT dept.name, count(emp.id) 
FROM employee emp JOIN department dept ON emp.dept_id = dept.id 
WHERE emp.salary > 5000 
GROUP BY dept.name

对应的AST结构示例：

TOK_QUERY
  TOK_FROM
    TOK_JOIN
      TOK_TABREF(employee emp)
      TOK_TABREF(department dept)
      TOK_JOINCOND(emp.dept_id = dept.id)
  TOK_INSERT
    TOK_DESTINATION
    TOK_SELECT
      TOK_SELEXPR(TOK_TABLE_OR_COL dept.name)
      TOK_SELEXPR(count(emp.id))
    TOK_WHERE(emp.salary > 5000)
    TOK_GROUPBY(TOK_TABLE_OR_COL dept.name)

3.2 语义分析

编译器执行以下操作： 1. 验证表和列是否存在（查询Metastore） 2. 检查数据类型兼容性 3. 解析UDF和内置函数 4. 隐式类型转换处理

3.3 逻辑计划生成

将AST转换为操作符树（Operator Tree）：

TS[0] TableScan(employee)
   RS[2] ReduceSink
      JOIN[3] Join(emp.dept_id=dept.id)
         TS[1] TableScan(department)
            RS[4] ReduceSink
               SEL[5] Select(emp.salary>5000)
                  GBY[6] GroupBy(keys:dept.name, functions:count(emp.id))
                     FS[7] FileSink

4. 查询优化

4.1 优化器类型

Hive包含多种优化器： - 逻辑优化器：基于规则的优化（Rule-Based Optimization） - 物理优化器：基于成本的优化（Cost-Based Optimization，CBO）

4.2 关键优化技术

谓词下推（Predicate Pushdown） “`sql – 优化前 SELECT * FROM (SELECT * FROM table1 WHERE col1 > 100) t WHERE t.col2 < 50;

– 优化后 SELECT * FROM table1 WHERE col1 > 100 AND col2 < 50;


2. **分区裁剪（Partition Pruning）**
   ```sql
   -- 只扫描符合条件的分区
   SELECT * FROM log_table WHERE dt = '2023-01-01';

列剪枝（Column Pruning）

-- 只读取需要的列
SELECT col1, col2 FROM large_table;

MapJoin优化

-- 小表自动加载到内存做Map端连接
SELECT /*+ MAPJOIN(small_table) */ * FROM large_table JOIN small_table ON...

并行执行

<!-- 配置并行任务数 -->
<property>
 <name>hive.exec.parallel</name>
 <value>true</value>
</property>

5. 执行计划生成

5.1 物理计划

优化后的逻辑计划转换为物理执行计划，包含： - MapReduce任务 - Tez DAG - Spark作业

示例MR计划：

Stage-1: Map
  TableScan(employee)
    Filter(salary > 5000)
      ReduceSink(key=dept_id)
Stage-2: Map
  TableScan(department)
    ReduceSink(key=id)
Stage-3: Reduce
  Join(emp.dept_id=dept.id)
    GroupBy(dept.name, count(emp.id))
      FileSink

5.2 执行引擎选择

Hive支持多种执行引擎：

引擎类型	特点	适用场景
MapReduce	稳定可靠，但延迟高	批处理作业
Tez	DAG执行，减少中间写盘	复杂查询
Spark	内存计算，性能最好	迭代计算

配置示例：

-- 设置执行引擎
SET hive.execution.engine=tez;

6. 查询执行

6.1 MapReduce执行流程

以GROUP BY查询为例：

Map阶段：
- 读取输入数据
- 提取GROUP BY列作为Key
- 输出对
Shuffle阶段：
- 按Key排序和分区
- 通过网络传输到Reducer
Reduce阶段：
- 对每个Key执行聚合函数
- 写入输出文件

6.2 Tez执行模型

Tez使用有向无环图（DAG）表示查询：

          Map1 (employee)
             |
          JoinVertex
          /      \
   Map2 (dept)  Reduce1 (group by)

优势： - 消除不必要的MR阶段 - 容器重用减少启动开销 - 更灵活的任务调度

7. 性能优化技巧

7.1 查询级别优化

合理使用分区和分桶 “`sql – 分区表创建 CREATE TABLE logs (msg string) PARTITIONED BY (dt string, country string);

– 分桶表创建 CREATE TABLE users (id int, name string) CLUSTERED BY (id) INTO 32 BUCKETS;


2. **避免全表扫描**
   ```sql
   -- 使用分区列过滤
   SELECT * FROM logs WHERE dt = '2023-01-01';

合理使用JOIN


-- 确保大表在JOIN右侧
SELECT /*+ STREAMTABLE(large_table) */ * FROM small_table JOIN large_table ON...

7.2 系统配置优化

关键配置参数：

<!-- 动态分区 -->
<property>
  <name>hive.exec.dynamic.partition</name>
  <value>true</value>
</property>

<!-- 合并小文件 -->
<property>
  <name>hive.merge.mapfiles</name>
  <value>true</value>
</property>

<!-- 并行执行 -->
<property>
  <name>hive.exec.parallel.thread.number</name>
  <value>16</value>
</property>

8. 高级查询特性

8.1 窗口函数

SELECT 
  name, salary,
  RANK() OVER (PARTITION BY dept ORDER BY salary DESC) as rank
FROM employee;

8.2 物化视图

CREATE MATERIALIZED VIEW mv_emp_stats 
AS SELECT dept, avg(salary) as avg_sal 
FROM employee GROUP BY dept;

8.3 CBO优化

启用成本优化：

SET hive.cbo.enable=true;
SET hive.compute.query.using.stats=true;
SET hive.stats.fetch.column.stats=true;

9. 查询监控与调优

9.1 使用EXPLN

分析查询计划：

EXPLN EXTENDED
SELECT count(*) FROM large_table;

9.2 日志分析

关键日志信息：

INFO  : MapReduce Jobs Launched: 
INFO  : Stage-1: Map: 2  Reduce: 1   Cumulative CPU: 45.23 sec
INFO  : Stage-2: Map: 1  Reduce: 1   Cumulative CPU: 12.67 sec

9.3 性能指标

监控关键指标： - 任务执行时间 - 数据倾斜情况 - 资源利用率 - Shuffle数据量

10. 总结

Hive查询实现是一个复杂的过程，涉及查询解析、优化、执行等多个阶段。理解Hive的查询执行机制对于编写高效查询和系统调优至关重要。随着Hive版本的演进，其查询引擎不断优化，性能也在持续提升。掌握Hive查询原理，结合适当的优化技巧，可以显著提高大数据处理效率。

参考资料

Apache Hive官方文档
《Hive编程指南》
《Hadoop权威指南》
Hive JIRA和设计文档

”`