Flink怎么样调度作业

发布时间：2021-12-28 11:59:52 作者：小新
来源：亿速云阅读：201

# Flink怎么样调度作业

## 一、Flink作业调度概述

Apache Flink作为分布式流处理框架，其核心调度机制直接影响作业执行的效率和资源利用率。Flink的调度系统负责将逻辑执行计划（ExecutionGraph）转化为物理执行计划（TaskManager上的实际任务），并管理任务的生命周期。与批处理系统（如MapReduce）不同，Flink需要同时支持流处理的长期运行和批处理的一次性调度特性。

### 1.1 调度层级结构
Flink采用主从架构的调度模型：
- **JobManager**：调度核心，包含：
  - Scheduler（实际调度器）
  - SlotPool（资源管理）
  - CheckpointCoordinator（容错协调）
- **TaskManager**：执行单元，通过Slot提供资源隔离

### 1.2 调度阶段划分
1. **Graph生成**：将StreamGraph转为JobGraph
2. **资源申请**：向ResourceManager请求Slot
3. **任务部署**：将Task部署到对应Slot
4. **运行时调度**：处理失败恢复、扩缩容等

## 二、调度核心流程详解

### 2.1 执行图转换过程
```mermaid
graph LR
  StreamGraph-->|Client生成|JobGraph
  JobGraph-->|JobManager转换|ExecutionGraph
  ExecutionGraph-->|调度器分解|Task

StreamGraph：用户API构建的原始DAG
JobGraph：优化后的中间表示（OperatorChain合并）
ExecutionGraph：并行化后的物理计划（包含所有并发子任务）

2.2 资源分配机制

Flink采用Slot共享组设计： - 默认所有Operator可共享Slot - 通过slotSharingGroup手动隔离 - 每个Slot可运行多个Task（减少网络开销）

// 示例：设置Slot共享组
dataStream.map(...)
    .slotSharingGroup("group1");

2.3 调度策略对比

策略类型	适用场景	特点
EAGER	流作业	一次性调度所有任务
LAZY	批作业	按阶段调度
PARTIAL	混合作业	先启动Source后渐进调度

三、关键调度优化技术

3.1 本地性优化

Flink会优先满足： 1. Input Locality：数据输入位置（如HDFS块位置） 2. Task Locality：相同TaskManager的任务通信 3. Host Locality：同主机网络延迟优化

# 调度器决策伪代码
def schedule_task(task):
    for slot in available_slots:
        if slot.host == task.preferred_location:
            return slot
    return any_available_slot

3.2 反压处理

调度器通过背压检测动态调整： 1. 网络层反压：TCP堆栈监控 2. 算子反压：Mailbox处理延迟 3. 全局反压：Credit-Based流量控制

3.3 容错调度

Checkpoint对齐：暂停部分管道确保一致性
失败恢复策略：
- 全图重启（默认）
- 区域重启（需开启FLIP-135）
- 精细化重启（v1.16+）

四、调度器实现演进

4.1 经典调度器（LegacyScheduler）

单线程调度模型
简单但扩展性差
已标记为废弃

4.2 新调度器（DefaultScheduler）

// 核心调度逻辑
public class DefaultScheduler {
    void schedule() {
        while (!executionGraph.isFinished()) {
            List<ExecutionVertex> schedulable = getSchedulableVertices();
            allocateResources(schedulable);
            deployTasks(schedulable);
        }
    }
}

特性改进： - 多线程调度 - 增量资源分配 - 支持声明式资源管理

4.3 自适应批调度（FLIP-187）

针对批处理的优化： - 动态规划并行度 - 基于数据的局部性调度 - 中间结果缓存复用

五、调度配置调优

5.1 关键参数

# flink-conf.yaml 配置示例
jobmanager.scheduler: adaptive # 调度器类型
taskmanager.numberOfTaskSlots: 4 # 每个TM的Slot数
jobmanager.adaptive-scheduler.resource-wait-timeout: 30s

5.2 最佳实践

Slot数量：建议等于CPU核心数
内存分配：
- 网络缓冲区占TM内存的10%
- 管理内存至少128MB

并行度设置：


env.setParallelism(4); // 全局默认
dataStream.map(...).setParallelism(8); // 算子级

六、调度可视化与监控

6.1 WebUI调度视图

Flink怎么样调度作业

关键观测指标： - 调度延迟（Scheduling Delay） - 任务倾斜率（Skewness） - 反压指标（BackPressure）

6.2 Metrics监控

重要指标项： - jobmanager.job.schedulingTime - jobmanager.slot.requestTimeout - taskmanager.slot.active

七、未来发展方向

统一调度器（FLIP-294）：流批统一调度接口
Kubernetes原生调度：直接对接K8s API
驱动的调度：基于历史数据预测资源需求

总结

Flink的调度系统通过精细化的DAG分解、智能的资源分配和动态的运行时调整，实现了高效的任务执行。随着流批一体和云原生的发展，其调度机制仍在持续进化。理解调度原理对于性能调优和故障诊断至关重要，开发者应当根据具体业务场景选择合适的调度策略和资源配置。

注：本文基于Flink 1.16版本编写，部分新特性可能需要更高版本支持。 “`

这篇文章通过Markdown格式系统性地介绍了Flink作业调度的核心机制，包含： 1. 调度架构和流程的详细说明 2. 可视化图表和代码示例 3. 配置优化建议和监控方法 4. 版本演进和未来趋势 5. 关键参数和最佳实践

全文约1900字，符合技术文档的深度要求，同时保持了可读性。可根据需要调整具体章节的详略程度。

Flink怎么样调度作业

2.2 资源分配机制

2.3 调度策略对比

三、关键调度优化技术

3.1 本地性优化

3.2 反压处理

3.3 容错调度

四、调度器实现演进

4.1 经典调度器（LegacyScheduler）

4.2 新调度器（DefaultScheduler）

4.3 自适应批调度（FLIP-187）

五、调度配置调优

5.1 关键参数

5.2 最佳实践

六、调度可视化与监控

6.1 WebUI调度视图

6.2 Metrics监控

七、未来发展方向

总结

相关阅读