Linux中Hadoop作业提交流程是怎样的 - 问答

在Linux环境下，使用Hadoop提交作业的流程大致如下：

使用hadoop jar命令提交作业。基本语法如下：

hadoop jar your-job.jar com.yourcompany.YourMainClass input output

客户端提交作业：
- 客户端将作业的JAR文件和相关配置信息发送给ResourceManager。
- ResourceManager将作业分配给一个NodeManager。
资源分配：
- NodeManager为作业分配所需的资源（如内存、CPU）。
- ResourceManager更新作业的状态为RUNNING。
任务调度：
- ResourceManager将Map任务和Reduce任务分配给合适的NodeManager。
- NodeManager启动Map任务和Reduce任务的容器（Container）。
任务执行：
- Map任务从HDFS读取输入数据，进行处理，并将中间结果写入本地磁盘。
- Reduce任务从Map任务的输出中读取中间结果，进行汇总处理，并将最终结果写入HDFS。
作业完成：
- 当所有Map任务和Reduce任务都完成后，ResourceManager更新作业的状态为SUCCEEDED或FAILED。
- 客户端可以通过hadoop job -status <job_id>命令查询作业状态。

作业完成后，建议手动删除输出目录，以避免下次提交作业时因输出目录已存在而失败。

hadoop jar /path/to/your-job.jar com.yourcompany.YourMainClass /input/path /output/path

通过以上步骤，你可以在Linux环境下成功提交并运行Hadoop作业。

0 赞

0 踩