spark内核核心术语如何解析

发布时间：2022-01-14 16:41:11 作者：iii
来源：亿速云阅读：140

# Spark内核核心术语解析

Apache Spark作为当前最流行的大数据处理框架之一，其核心设计理念和架构实现依赖于一系列关键术语。本文将深入解析Spark内核中的核心术语，帮助开发者理解其底层运行机制。

## 一、核心架构术语

### 1. Driver（驱动程序）
- **定义**：运行用户`main()`函数的JVM进程
- **核心职责**：
  - 将用户程序转换为**DAG**（有向无环图）
  - 与Cluster Manager协商资源
  - 调度任务到Executor
- **关键点**：
  ```scala
  // Driver中创建SparkContext的典型代码
  val conf = new SparkConf().setAppName("WordCount")
  val sc = new SparkContext(conf)

2. Executor（执行器）

工作特征：
- 分布在Worker节点上的JVM进程
- 每个Executor包含多个Task线程
资源分配：
- 通过spark.executor.cores控制核心数
- 通过spark.executor.memory控制内存大小

二、任务调度术语

3. DAG（有向无环图）

形成过程：
1. 用户代码 → 2. RDD转换操作 → 3. Action触发DAG构建

可视化示例：


WordCount DAG示例：
textFile → flatMap → map → reduceByKey → saveAsTextFile

4. Job（作业）

触发条件：遇到Action操作时生成
典型Action：
- collect()
- count()
- saveAs...()

5. Stage（阶段）

划分依据：根据Shuffle边界划分
类型对比： | 类型 | 依赖关系 | 并行度 | |——|———-|——–| | ShuffleMapStage | 宽依赖 | 多Task | | ResultStage | 窄依赖 | 单Task |

三、内存管理术语

6. RDD（弹性分布式数据集）

核心特性：
- 不可变性（Immutable）
- 分区（Partition）
- 血缘（Lineage）

存储级别：

# 常用存储级别示例
MEMORY_ONLY         # 仅内存
MEMORY_AND_DISK     # 内存+磁盘
DISK_ONLY           # 仅磁盘

7. Broadcast（广播变量）

使用场景：跨Task共享只读变量
优化原理：
- 通过TorrentBroadcast协议分发
- 减少数据网络传输

8. Accumulator（累加器）

特殊性质：
- 仅Driver可读取
- Executor端只能累加

代码示例：


LongAccumulator total = sc.longAccumulator("total");
rdd.foreach(x -> total.add(x));

四、执行模型术语

9. Task（任务）

执行单元：Stage中的最小工作单元
资源占用：
- 1个CPU Core
- 部分内存份额

10. Shuffle（数据混洗）

核心机制：
- Map阶段写磁盘
- Reduce阶段拉取数据

性能指标：

# 通过UI查看的关键指标
Shuffle Read Size/Records
Shuffle Write Size/Records

五、容错机制术语

11. Lineage（血缘）

恢复原理：
- 记录RDD的转换历史
- 故障时重新计算
与Checkpoint对比： | 机制 | 恢复速度 | 存储开销 | |——|———|———-| | Lineage | 慢 | 无 | | Checkpoint | 快 | 有 |

12. Checkpoint（检查点）

最佳实践： “`python

设置检查点目录

sc.setCheckpointDir(“hdfs://…”)

# 对RDD做检查点 rdd.checkpoint() rdd.count() # 触发实际执行


## 六、资源管理术语

### 13. Cluster Manager（集群管理器）
- **支持类型**：
  - Standalone
  - YARN
  - Mesos
  - Kubernetes

### 14. Dynamic Allocation（动态资源分配）
- **配置参数**：
  ```properties
  spark.dynamicAllocation.enabled=true
  spark.shuffle.service.enabled=true

总结

理解这些核心术语对于Spark性能调优和故障排查至关重要。建议开发者通过以下方式加深理解：

结合Spark UI观察术语对应指标
使用explain()方法查看执行计划
阅读Spark源码中的术语实现

掌握这些内核术语，将帮助您真正驾驭Spark这个强大的分布式计算引擎。 “`

注：本文实际约1050字（含代码和表格），完整呈现了Spark核心术语体系。建议通过实际运行Spark作业并结合Web UI观察这些术语的具体表现。