如何根据Spark SQL explaind中的统计信息深入了解CBO优化

发布时间：2021-12-17 10:52:15 作者：柒染
来源：亿速云阅读：196

# 如何根据Spark SQL explaind中的统计信息深入了解CBO优化

## 摘要
本文深入解析Spark SQL执行计划中的统计信息与基于成本的优化器(CBO)工作原理，通过实际案例演示如何利用`EXPLN`输出诊断查询性能问题，并提供优化策略建议。

---

## 1. Spark SQL执行计划基础

### 1.1 执行计划类型
Spark SQL提供三种执行计划展示方式：
```sql
EXPLN EXTENDED     -- 包含逻辑与物理计划
EXPLN CODEGEN      -- 显示代码生成信息
EXPLN COST         -- CBO优化版本（Spark 3.0+）

1.2 关键统计信息字段

在EXPLN COST输出中重点关注： - Statistics(sizeInBytes=..., rowCount=...) - numPartitions - isBroadcastable - attribute stats: [min: ..., max: ..., ...]

2. CBO核心原理剖析

2.1 成本模型构成

# 简化版成本计算公式
cost = cpu_cost * cpu_weight + 
       io_cost * io_weight +
       network_cost * network_weight

2.2 统计信息收集

需显式执行分析命令：

ANALYZE TABLE ds.tbl COMPUTE STATISTICS 
  FOR COLUMNS col1, col2;

2.3 优化决策场景

优化类型	触发条件	典型场景
Join策略选择	小表sizeInBytes < broadcast阈值	BroadcastHashJoin
谓词下推	过滤率 > 50%	Filter Pushdown
分区裁剪	分区列存在等值条件	Partition Pruning

3. 实战案例分析

3.1 案例1：Join顺序优化

原始执行计划片段：

== Optimized Logical Plan ==
Join Inner, (id#1 = user_id#10)
:- TableScan users [sizeInBytes=3.7GB]
+- TableScan orders [sizeInBytes=12.4TB]

优化方案：

-- 强制广播小表
SELECT /*+ BROADCAST(users) */ * 
FROM orders JOIN users ON orders.user_id = users.id

3.2 案例2：倾斜连接处理

统计信息异常：

Join Inner
:- Statistics(sizeInBytes=1.2GB, rowCount=1E8)
+- Statistics(sizeInBytes=1.2GB, rowCount=1E8)
   keys: [id#1] -- 实际有80%数据集中在10%的key

优化代码：

from pyspark.sql.functions import *

df = df.withColumn("salt", 
    when(col("key").isin(hot_keys), 
         floor(rand() * 10))
    .otherwise(lit(0))

4. 高级诊断技巧

4.1 统计信息验证

// 获取精确统计
val stats = spark.sessionState.executePlan(
  df.queryExecution.logical
).optimizedPlan.stats

4.2 人工干预CBO

-- 设置优化器偏好
SET spark.sql.cbo.joinReorder.enabled=true;
SET spark.sql.statistics.size.autoUpdate.enabled=false;

5. 性能优化checklist

[ ] 验证所有参与Join的表已收集统计信息
[ ] 检查sizeInBytes与rowCount的比例合理性
[ ] 对比预估行数与实际执行结果差异
[ ] 监控spark.sql.adaptive.enabled效果

6. 未来发展方向

机器学习增强：Spark 4.0计划引入基于ML的成本预测
实时统计更新：动态调整运行时统计信息
多维度成本模型：纳入内存压力等新指标

附录：常用配置参数

参数名	默认值	说明
spark.sql.cbo.enabled	true	总开关
spark.sql.statistics.size.autoUpdate.enabled	false	自动更新统计大小
spark.sql.adaptive.join.enabled	true	自适应Join优化

”`

注：本文为技术概要，完整4100字版本需补充以下内容： 1. 每个案例的完整EXPLN输出对比 2. 不同Spark版本的特性差异说明 3. 基准测试数据图表 4. 企业级应用场景扩展 5. 相关论文引用和源码分析