如何理解数据库的行式存储和列式存储

发布时间：2021-11-29 14:25:50 作者：柒染
来源：亿速云阅读：378

# 如何理解数据库的行式存储和列式存储

## 引言

在数据库系统的设计与优化中，存储引擎的选择直接影响着数据查询效率、存储空间利用率和系统整体性能。行式存储（Row-based Storage）和列式存储（Column-based Storage）是两种截然不同的数据组织方式，它们分别适用于不同的应用场景。本文将深入探讨这两种存储方式的原理、优缺点及典型应用场景，帮助读者在实际项目中做出合理选择。

---

## 一、行式存储：传统的数据组织方式

### 1.1 基本概念
行式存储是关系型数据库（如MySQL、PostgreSQL）的默认存储方式，其核心特征是将**整行数据连续存储在磁盘上**。例如，一个包含用户ID、姓名、年龄、地址的用户表，行式存储会将这些字段的值按行物理排列：

[用户1_ID, 用户1_姓名, 用户1_年龄, 用户1_地址] [用户2_ID, 用户2_姓名, 用户2_年龄, 用户2_地址] …


### 1.2 核心特点
- **OLTP场景友好**：适合频繁的增删改操作（如订单系统）。
- **整行读取高效**：通过主键或索引可快速获取单行所有字段。
- **写入性能高**：只需追加或修改单行数据块。

### 1.3 典型应用场景
- 银行交易系统
- 电商订单处理
- 需要高并发写入的CRUD操作

### 1.4 局限性
```python
# 当需要统计"年龄>30的用户数量"时
for row in table:
    if row["年龄"] > 30:  # 必须读取整行（包含不需要的姓名、地址等字段）
        count += 1

列计算效率低：需扫描所有行的目标字段。
压缩率有限：同一行中字段类型差异大，压缩效果差。

二、列式存储：分析型场景的利器

2.1 基本概念

列式存储将同一列的数据连续存储，例如上述用户表会按列物理分离：

用户ID列:   [用户1_ID, 用户2_ID, ...]
姓名列:     [用户1_姓名, 用户2_姓名, ...]
年龄列:     [用户1_年龄, 用户2_年龄, ...]

2.2 核心优势

（1）查询性能优化

列裁剪：只读取查询涉及的列（如SELECT 年龄 FROM users）
向量化计算：对整列数据批量处理（如SUM、AVG）
延迟物化：在压缩数据上直接计算

（2）存储效率

高压缩比：同列数据类型一致，可采用RLE、字典编码等算法
列级统计信息：自动维护min/max等元数据，加速过滤

2.3 典型应用场景

数据仓库（如Amazon Redshift）
实时分析系统（如ClickHouse）
日志分析（如Apache Parquet格式）

2.4 局限性

-- 行式存储的优势场景
UPDATE users SET 地址='北京' WHERE 用户ID=100;

单行写入成本高：需修改多个列文件
不适合高并发UPDATE：列数据修改可能触发全局重组

三、关键技术对比

特性	行式存储	列式存储
存储结构	行数据连续存储	列数据连续存储
读取单位	行（适合点查询）	列（适合分析查询）
压缩效率	一般（10-20%）	极高（可达80-90%）
写入性能	优（追加/修改单行）	差（需更新多列文件）
典型系统	MySQL, Oracle	ClickHouse, Snowflake

四、混合存储与新型架构

4.1 行列混合存储

现代数据库如Google Spanner采用混合模式： - 热数据使用行存保证写入效率 - 冷数据自动转为列存优化分析查询

4.2 存储格式演进

Apache Arrow：内存中的列式格式，实现零拷贝读取
Delta Lake：支持ACID的事务性列存方案

五、选型建议

5.1 选择行式存储当：

需要高频单行读写（如用户登录验证）
系统以OLTP为主
数据量在TB级以下

5.2 选择列式存储当：

分析查询占比超过30%
需要处理PB级数据
查询常涉及聚合计算（如GROUP BY）

5.3 混合方案参考

graph LR
    A[前端业务库] -->|ETL| B(行式存储)
    B -->|夜间批处理| C[列式数据仓库]
    C --> D[BI工具]

结语

行式存储与列式存储如同数据库领域的”矛与盾”，没有绝对的优劣之分。随着HTAP（混合事务分析处理）架构的兴起，理解二者的底层原理将帮助我们在系统设计时做出更精准的权衡。建议开发者在实际项目中通过基准测试（如TPC-H）验证不同存储方案的真实表现。

扩展阅读：
- 《Database Internals》Alex Petrov
- Apache Parquet官方文档
- CMU 15-⁴⁴⁵⁄₆₄₅ Database Systems课程 “`

注：本文约1900字，完整版本包含更多技术细节和性能测试案例。可根据需要进一步扩展特定数据库实现（如MySQL InnoDB行存结构或ClickHouse的MergeTree引擎）。