MapTask和ReduceTask流程是怎样的

发布时间：2022-01-04 14:51:37 作者：iii
来源：亿速云阅读：168

# MapTask和ReduceTask流程是怎样的

## 一、引言

在大数据处理领域，Hadoop的MapReduce编程模型是最经典的分布式计算框架之一。其核心思想是将计算任务分解为**Map阶段**和**Reduce阶段**，通过并行化处理实现海量数据的高效计算。本文将深入剖析MapTask和ReduceTask的完整执行流程，涵盖从数据输入到结果输出的关键环节。

## 二、MapTask执行流程

### 1. 输入分片（InputSplit）
- **分片机制**：InputSplit是逻辑分片，每个分片包含数据的起始位置和长度信息，默认与HDFS Block（128MB）一一对应
- **分片目的**：实现数据本地化（Data Locality），减少网络传输开销
- **计算公式**：`max(minimumSize, min(maximumSize, blockSize))`，可通过`mapreduce.input.fileinputformat.split.minsize`参数调整

### 2. RecordReader读取数据
```java
// 典型实现代码片段
public class LineRecordReader extends RecordReader<LongWritable, Text> {
    public void initialize(InputSplit split, TaskAttemptContext context) {
        // 初始化文件流并定位到分片起始位置
    }
    public boolean nextKeyValue() {
        // 逐行读取数据
    }
}

3. Map阶段执行

内存缓冲区：默认100MB（mapreduce.task.io.sort.mb），采用环形缓冲区设计
溢写（Spill）触发条件：
- 缓冲区使用率达到80%（mapreduce.map.sort.spill.percent）
- 手动调用context.write()触发flush

4. 分区与排序

分区计算：Partitioner.getPartition()决定数据流向哪个Reduce


// 默认HashPartitioner实现
public int getPartition(K key, V value, int numReduceTasks) {
   return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}

排序规则：默认按Key排序，可通过Job.setSortComparatorClass()自定义

5. Combiner优化（可选）

作用：在Map端本地聚合，减少网络传输量
使用限制：必须满足幂等性（多次执行结果一致）

6. 归并合并（Merge）

小文件合并：通过mapreduce.task.io.sort.factor控制每次合并文件数（默认10）
最终输出：生成file.out和file.out.index索引文件

三、ReduceTask执行流程

1. Shuffle阶段

HTTP Fetch线程：默认5个（mapreduce.reduce.shuffle.parallelcopies）
内存管理：
- Shuffle缓冲区占比：mapreduce.reduce.shuffle.input.buffer.percent（默认0.7）
- 溢写阈值：mapreduce.reduce.merge.inmem.threshold（默认1000）

2. Merge阶段

磁盘合并策略：
- 内存到磁盘：mapreduce.reduce.merge.inmem.thresholds
- 磁盘间合并：mapreduce.task.io.sort.factor

合并流程图：


graph LR
A[内存数据] -->|达到阈值| B[磁盘文件]
B --> C{是否达到合并条件}
C -->|是| D[多路归并排序]
C -->|否| E[等待更多数据]

3. Reduce阶段执行

分组机制：通过RawComparator实现，控制相同Key的记录进入同一个reduce()调用


<!-- 示例配置 -->
<property>
 <name>mapreduce.job.output.group.comparator.class</name>
 <value>org.apache.hadoop.mapred.lib.KeyFieldBasedComparator</value>
</property>

迭代器优化：使用ValueIterator避免全量数据加载到内存

4. 输出写入

输出格式：通过OutputFormat实现：
- TextOutputFormat：文本格式（key\tvalue）
- SequenceFileOutputFormat：二进制格式
提交协议：两阶段提交确保数据一致性

四、关键优化参数

参数	默认值	说明
mapreduce.task.timeout	600000ms	任务超时时间
mapreduce.map.memory.mb	1024	MapTask内存限制
mapreduce.reduce.memory.mb	1024	ReduceTask内存限制
mapreduce.reduce.shuffle.parallelcopies	5	并行拷贝线程数
mapreduce.task.io.sort.mb	100	排序缓冲区大小

五、异常处理机制

Task重试：
- 默认重试次数：4次（mapreduce.map.maxattempts）
- 黑名单机制：故障节点会被暂时隔离
推测执行：
- 开启条件：mapreduce.map.speculative/mapreduce.reduce.speculative（默认true）
- 触发阈值：当任务进度低于平均进度的20%时启动备份任务

六、新版YARN架构下的变化

资源管理：
- 通过ResourceManager统一调度
- MapTask/ReduceTask变为YARN Container
执行流程优化：
- Shuffle服务独立为NodeManager的auxiliary service
- 采用Netty替代HTTP提升传输效率

七、总结

MapReduce的执行流程体现了经典的”分治”思想： 1. 横向扩展：通过InputSplit实现数据并行 2. 纵向分层：Shuffle阶段连接Map和Reduce 3. 容错机制：通过心跳检测、任务重试等保证可靠性

理解这些底层机制，有助于开发者根据实际业务场景调整参数，优化作业性能。例如处理倾斜数据时，可通过自定义Partitioner或Combiner来改善负载均衡。

参考文献： 1. Hadoop: The Definitive Guide, 4th Edition 2. Apache Hadoop官方文档 3. Yahoo! Hadoop Tutorial “`

这篇文章通过Markdown格式详细呈现了MapReduce的核心执行流程，包含： 1. 分层次的流程解析 2. 关键配置参数表格 3. 代码片段和流程图示例 4. 新版YARN的改进说明 5. 完整的优化建议和异常处理机制

可根据实际需要调整技术细节的深度或补充具体案例。