YARN集群工作机制是什么

# YARN集群工作机制是什么 ## 一、YARN概述 YARN（Yet Another Resource Negotiator）是Hadoop 2.0引入的核心组件，作为集群资源管理系统，它解决了早期Hadoop 1.0中MapReduce在资源管理和作业调度方面的局限性。YARN通过将资源管理和作业调度/监控功能分离，实现了更高效的集群资源利用，并支持多种计算框架（如MapReduce、Spark、Flink等）在同一个集群上运行。 ## 二、YARN的核心设计思想 YARN的设计遵循了"分而治之"的理念，主要包含两个关键思想： 1. **资源管理与作业调度解耦** 将JobTracker的功能拆分为： - 全局资源管理器（ResourceManager） - 每个应用特有的ApplicationMaster 2. **通用化资源管理** 不局限于MapReduce作业，可为任意计算框架提供资源管理服务 ## 三、YARN的核心组件 ### 1. ResourceManager（RM）集群资源的全局管理者，包含两个主要子组件： - **调度器（Scheduler）** 纯调度器，不参与具体应用的状态维护，根据容量、队列等限制分配资源 - 支持插件式调度策略（FIFO/Capacity/Fair） - **应用管理器（ApplicationsManager）** 负责接收作业提交、协商第一个容器（ApplicationMaster）的启动 ### 2. NodeManager（NM）每个节点上的代理，负责： - 容器生命周期管理 - 监控资源使用（CPU/内存等） - 向RM汇报节点健康状况 ### 3. ApplicationMaster（AM）每个应用独有的管理者，功能包括： - 向RM申请资源 - 与NM协作启动/监控任务 - 容错处理（任务失败时重新申请资源） ### 4. Container YARN的资源抽象单位，包含： - 内存、CPU等资源配额 - 启动命令（如启动MapTask的环境变量） ## 四、YARN工作流程详解 ### 步骤1：作业提交 1. 客户端调用`job.waitForCompletion()`提交作业 2. RM的ApplicationsManager分配一个Application ID 3. 客户端将作业资源（JAR包、配置文件）上传到HDFS ### 步骤2：ApplicationMaster启动 4. RM在某个NM上启动ApplicationMaster容器 5. AM向RM注册自己并初始化作业 ### 步骤3：资源申请与分配 6. AM向RM的Scheduler申请资源（通过RPC心跳） 7. Scheduler根据调度策略分配Container资源 ### 步骤4：任务执行 8. AM与对应NM通信启动Container 9. 任务执行期间，AM监控任务状态 10. NM定期向RM发送心跳报告Container状态 ### 步骤5：作业完成 11. AM向RM注销自己 12. 清理临时文件并通知客户端作业结果 ## 五、YARN的调度机制 ### 1. 调度器类型 | 调度器类型 | 特点 | 适用场景 | |------------|------|----------| | FIFO | 先进先出，简单但资源利用率低 | 测试环境 | | Capacity | 划分资源队列，保证最小资源 | 生产多租户环境 | | Fair | 动态平衡资源，弹性分配 | 共享集群 | ### 2. 资源请求模型 AM通过`ResourceRequest`指定： - 资源量（内存、CPU虚拟核数） - 数据本地性偏好（NODE_LOCAL/RACK_LOCAL/ANY） ## 六、YARN的高可用机制 ### 1. RM高可用 - 基于ZooKeeper的Active/Standby架构 - 故障转移时间<1分钟 - 恢复时重建应用状态（需开启状态存储） ### 2. AM容错 - AM失败后由RM重新启动 - 支持应用保存点恢复（依赖框架实现） ### 3. NM健康检测 - 通过心跳超时机制判定节点失效 - 黑名单机制避免反复调度到问题节点 ## 七、YARN的资源隔离 ### 1. 内存隔离 - 基于Linux cgroups或进程树监控 - OOM时kill超用Container ### 2. CPU隔离 - 通过Cgroups或Linux Container实现 - 支持按比例分配CPU时间 ## 八、YARN的扩展机制 ### 1. 资源类型扩展支持自定义资源（如GPU、FPGA）的管理 ### 2. 调度器插件可通过实现`YarnScheduler`接口开发定制调度器 ### 3. 服务化支持通过YARN Service API部署长期运行服务（如HBase集群） ## 九、YARN的局限性 1. **资源模型简单** 仅支持内存和CPU，对异构设备支持有限 2. **调度延迟** 基于心跳的调度（典型间隔3s）影响实时应用 3. **状态同步开销** RM恢复时需要重建应用状态 ## 十、总结 YARN通过分层架构实现了： - 多租户资源共享 - 多计算框架支持 - 可扩展的资源管理作为大数据生态系统的资源调度基石，YARN的"一栈多框架"设计使其成为现代Hadoop集群的核心组件。随着Kubernetes等新技术的发展，YARN也在持续演进（如支持容器化部署），继续保持其在大数据平台中的关键地位。

相关阅读