HIVE体系架构是怎么样的

发布时间：2021-12-10 11:24:40 作者：小新
来源：亿速云阅读：168

# HIVE体系架构是怎么样的

## 一、HIVE概述

Apache Hive是构建在Hadoop之上的数据仓库基础设施，由Facebook开发并贡献给Apache基金会。它通过类SQL语言（HiveQL）将结构化数据文件映射为数据库表，使不具备MapReduce编程能力的分析师也能处理海量数据。Hive的核心设计目标是实现**数据汇总**、**即席查询**和分析大规模数据集。

## 二、HIVE核心架构组成

### 1. 用户接口层
- **CLI（Command Line Interface）**：通过`hive`命令启动的交互式Shell
- **JDBC/ODBC**：通过`HiveServer2`提供的标准化数据库连接接口
- **Web UI**：通过浏览器访问的Hive管理界面（需额外配置）
- **Thrift Server**：支持多种编程语言的RPC服务接口

### 2. 元数据存储（Metastore）
- **核心组件**：存储表结构、分区信息、数据位置等元数据
- **默认存储**：Derby数据库（单会话模式）
- **生产环境**：通常使用MySQL或PostgreSQL
- **服务模式**：
  - 嵌入式模式（开发测试）
  - 本地模式（单节点服务）
  - 远程模式（多客户端访问）

### 3. 驱动引擎（Driver）
```mermaid
graph LR
    A[HiveQL] --> B[解析器]
    B --> C[语义分析]
    C --> D[逻辑计划生成]
    D --> E[优化器]
    E --> F[物理计划]
    F --> G[执行引擎]

4. 执行引擎

MapReduce：传统默认引擎（Hive 2.x前）
Tez：DAG优化引擎，减少中间结果落盘
Spark：基于内存计算的替代引擎
LLAP（Live Long and Process）：2.0引入的混合执行模型

5. 存储系统

HDFS：主要存储底层数据文件
S3/OSS：云环境下的对象存储支持
文件格式：
- TextFile
- SequenceFile
- RCFile
- ORC（优化行列式）
- Parquet（列式存储）

三、详细架构解析

1. 查询处理流程

解析与编译：
- 词法分析生成AST
- 语义分析验证表/列是否存在
- 生成逻辑执行计划
优化阶段：
- 谓词下推（Predicate Pushdown）
- 分区裁剪（Partition Pruning）
- 列裁剪（Column Pruning）
执行阶段：
- 将逻辑计划转换为物理计划
- 提交到Hadoop集群执行

2. 元数据服务架构

classDiagram
    class Metastore {
        +DatabaseSchema
        +TableSchema
        +PartitionInfo
        +StorageDescriptor
        +SerDeInfo
    }
    class HiveServer2 {
        +executeQuery()
        +fetchResults()
    }
    Metastore <-- HiveServer2 : 元数据访问

3. 执行引擎对比

引擎特性	MapReduce	Tez	Spark
执行模型	阶段式	DAG	DAG
内存使用	低	中等	高
启动延迟	高	中	低
中间数据存储	HDFS	内存/HDFS	内存
适合场景	批处理	交互查询	迭代计算

四、HIVE 3.0架构演进

1. 重大改进

ACID 2.0：完整支持行级更新/删除
物化视图：预先计算并存储查询结果
默认引擎：从MR切换到Tez
LLAP增强：长期运行守护进程

2. 新架构特性

graph TB
    subgraph 协调层
        HS2[HiveServer2]
        LLAP[LLAP Daemon]
    end
    subgraph 执行层
        Tez
        Spark
    end
    subgraph 存储层
        HDFS
        CACHE[LLAP Cache]
    end
    HS2 -->|查询| LLAP
    LLAP -->|加速| CACHE

五、生产环境部署架构

典型集群配置

主节点：运行HiveServer2、Metastore
工作节点：执行引擎（Tez/Spark）
高可用方案：
- Metastore多实例+负载均衡
- HiveServer2热备
资源隔离：
- 通过YARN队列隔离ETL和查询任务
- LLAP专用资源池

六、性能优化架构

1. 存储优化

分区设计：按时间/地域合理分区
分桶技术：对表数据进行哈希分桶
索引应用：Bitmap/Compact索引

2. 计算优化

CBO（Cost-Based Optimizer）：基于统计信息的优化
向量化查询：一次处理1024行数据
动态分区裁剪：运行时过滤无关分区

七、与其他组件的集成架构

1. 数据流整合

Kafka --> Spark Streaming --> Hive（实时表）
           ↓
HDFS --> Flume --> Hive（离线表）

2. 安全架构

认证：Kerberos集成
授权：Ranger/Sentry细粒度权限控制
审计：操作日志记录与分析

八、总结与展望

Hive架构经过多年演进，已从最初的HQL翻译器发展为完整的数据仓库解决方案。未来架构可能向以下方向发展： 1. 云原生架构：更好整合Kubernetes和对象存储 2. 实时分析：增强与流处理引擎的集成 3. 智能化：基于机器学习的自动优化

注：本文描述的架构基于Hive 3.x版本，不同版本间可能存在组件差异。实际生产部署时需根据具体需求调整架构设计。 “`

该文档共计约1650字，采用Markdown格式编写，包含： - 多级标题结构 - 表格对比 - Mermaid架构图 - 代码块示例 - 项目符号列表 - 引用说明可根据需要进一步补充具体配置参数或性能测试数据。