Hadoop执行路径的示例分析

发布时间：2021-12-06 09:41:59 作者：小新
来源：亿速云阅读：165

这篇文章给大家分享的是有关Hadoop执行路径的示例分析的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

Hadoop简介

一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。
简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（highthroughput）来访问应用程序的数据，适合那些有着超大数据集（largedataset）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streamingaccess）文件系统中的数据。

Hadoop执行路径。

通常我们在自己编写的Job代码中会调用JobClient.runJob(job)方法来启动任务的真正执行，我们的介绍就从这个命令开始（在调用这个api之前，我们已经设计并且在程序中指定好自己的mapper函数和reducer函数了）

1，JobClient.runJob(job)静态方法会实例化一个JobClient实例，然后用该实例的submitJob(job)方法向master提交作业，此方法返回一个RunningJob对象，用来跟踪作业的状态，作业提交完毕，JobClient会轮训作业的进度

2，submitJob内部是通过JobSubmitter的submitJobInternal(job)完成实质性的作业提交。submitJobInternal会先向haodoop文件系统上传3个文件：job.jar,job.split,job.xml这三个文件位置由mapreduce系统路径mapred.system.dir属性决定，写完这三个文件之后，此方法使用RPC调用master节点的JobTracker.submitJob(job)方法。

3，JobTracker收到JobClient提交的作业后，即在JobTracker.submitJob()方法中，首先生成一个JobInProgress对象，此对象代表一个作业，它的作用是维护这道作业的所有信息，包括作业剖析JobProfile和JobStatus，并登记所有Task进任务表中。随后JobTracker会将此JobInProgress对象通过listener.jobAdd(job)方法加入作业调度队列，并用一个成员Jobs来表示所有的作业

4，Hadoop默认的调度器是FIFO的JobQueueTaskScheduler。它有2个成员变量JobQueueJobInProgressListener和eagerTaskInitializationListener。后者负责任务初始化。作法为：listerner初始化时，开启JobInitThread线程，当作业通过JobAdd(job)加入初始化队列jobInitQueue时，根据作业优先级排序，之后该线程调用JobInProgress的initTasks()来初始化所有的任务。

5,initTasks()过程比较复杂，在这里面会根据原先对输入任务的分解，来创建对应数目的Map执行管理对象TaskInProgress。

感谢各位的阅读！关于“Hadoop执行路径的示例分析”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

Hadoop执行路径的示例分析

相关阅读