MapReduce 实验 (一) 原理

发布时间：2020-07-22 13:49:59 作者：pcdog
来源：网络阅读：1492

官网

http://hadoop.apache.org/

hadoop三大组件

HDFS：分布式存储系统

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

MapReduce：分布式计算系统

http://hadoop.apache.org/docs/r2.8.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html

YARN： hadoop 的资源调度系统

http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/YARN.html

回想起以前做过一个中铁轨道激光测量轨道平整的项目，一段50KM的数据库大小是400G，光是找空间复制出来就是头大，现在有了分布式的数据库和计算平台就可以非常方便的进行。

MapReduce 实验 (一) 原理

Mapper

映射器将输入键/值对映射到一组中间键/值对中。

映射是将输入记录转换为中间记录的单个任务。转换后的中间记录不需要与输入记录相同的类型。给定的输入对可以映射到零或多个输出对。
Hadoop的MapReduce框架产生一个地图的任务由每个InputSplit工作InputFormat生成。
总的来说，制图的实现是通过工作传递到工作setmapperclass（类）的方法。框架调用图（writablecomparable，写，上下文）每个键/值对，任务在InputSplit对。然后应用程序可以覆盖清除（上下文）方法来执行任何必需的清理工作。
输出对不需要与输入对相同的类型。给定的输入对可以映射到零或多个输出对。输出对被调用的上下文所写（writablecomparable，可写）。

应用程序可以使用计数器报告其统计数据。

所有与给定输出键相关联的中间值随后由框架分组，并传递给减速器以确定最终输出。用户可以通过指定一个比较器通过工作控制分组。setgroupingcomparatorclass（类）。
对映射器输出进行排序，然后对每个减速器进行分区。分区的总数与任务的减少任务数相同。用户可以控制键（因此记录）通过实现一个自定义的分割器去哪。
用户可以选择指定一个合成器，通过工作。setcombinerclass（类），执行中间输出的地方聚集，这有助于减少从制图到减速器的数据量。
中间排序的输出总是存储在一个简单（键、键、值、值）格式中。应用程序可以控制的话，又如何，中间输出被压缩和compressioncodec可以通过配置。

Reducer

减速减少一组中间值份额较小的一组值的关键。
数量减少了工作组通过工作的用户。setnumreducetasks（int）。
总的来说，减速器的实现是通过岗位工作经工作。setreducerclass（类）方法，可以重写它初始化自己。框架调用减少（writablecomparable，个<写>，<上下文）为每个关键方法（值列表）>在分组的输入对。应用程序可以重写清理（上下文）执行任何所需的清理方法。
减速器有3个主要阶段：洗牌，排序和减少。

Shuffle洗牌

输入减速器的排序输出的映射。在这一阶段的框架带来的所有映射器输出相应的分区，通过HTTP。

Partitioner分区

partitions空间分区是关键。
分区分配的关键的中间图的输出。“密钥或密钥的子集的冰derive）使用的分区，typically A市的哈希函数。的总数partitions冰茶一样的号码reduce任务的工作。这hence米，江森自控的reduce任务的中间密钥和hence记录）的冰后期两个还原。
hashpartitioner是默认的分区。

Counter计数器

计数器是MapReduce应用程序报告其统计数据的工具。
映射器和减速器实现可以使用计数器报告统计数据。
Hadoop的MapReduce的附带了一个普遍有用的映射器，减速器库，并计划。

其实MapReduce讲的就是分而治之的程序处理理念，把一个复杂的任务划分为若干个简单的任务分别来做。另外，就是程序的调度问题，哪些任务给哪些Mapper来处理是一个着重考虑的问题。MapReduce的根本原则是信息处理的本地化，哪台PC持有相应要处理的数据，哪台PC就负责处理该部分的数据，这样做的意义在于可以减少网络通讯负担。最后补上一副经典的图来做最后的补充，毕竟，图表往往比文字更有说服力。

MapReduce 实验 (一) 原理

如果那个400G的数据库还在，分成400个任务，每个任务进行1g左右数据处理，理论上速度是原来的400倍。

具体请参考google mapreduce

https://wenku.baidu.com/view/1aa777fd04a1b0717fd5dd4a.html

MapReduce如何工作

让我们用一个例子来理解这一点 –

假设有以下的输入数据到 MapReduce 程序，统计以下数据中的单词数量：

Welcome to Hadoop Class

Hadoop is good

Hadoop is bad

MapReduce 实验 (一) 原理

MapReduce 任务的最终输出是：

bad

Class

good

Hadoop

Welcome

这些数据经过以下几个阶段

输入拆分：

输入到MapReduce工作被划分成固定大小的块叫做 input splits ，输入折分是由单个映射消费输入块。

映射 - Mapping

这是在 map-reduce 程序执行的第一个阶段。在这个阶段中的每个分割的数据被传递给映射函数来产生输出值。在我们的例子中，映射阶段的任务是计算输入分割出现每个单词的数量(更多详细信息有关输入分割在下面给出)并编制以某一形式列表<单词，出现频率>

重排

这个阶段消耗映射阶段的输出。它的任务是合并映射阶段输出的相关记录。在我们的例子，同样的词汇以及它们各自出现频率。

Reducing

在这一阶段，从重排阶段输出值汇总。这个阶段结合来自重排阶段值，并返回一个输出值。总之，这一阶段汇总了完整的数据集。

在我们的例子中，这个阶段汇总来自重排阶段的值，计算每个单词出现次数的总和。

MapReduce如何组织工作？

Hadoop 划分工作为任务。有两种类型的任务：

Map 任务 (分割及映射)
Reduce 任务 (重排，还原)

如上所述

完整的执行流程(执行 Map 和 Reduce 任务)是由两种类型的实体的控制，称为

Jobtracker : 就像一个主(负责提交的作业完全执行)
多任务跟踪器 : 充当角色就像从机，它们每个执行工作

对于每一项工作提交执行在系统中，有一个 JobTracker 驻留在 Namenode 和 Datanode 驻留多个 TaskTracker。

MapReduce 实验 (一) 原理

作业被分成多个任务，然后运行到集群中的多个数据节点。
JobTracker的责任是协调活动调度任务来在不同的数据节点上运行。
单个任务的执行，然后由 TaskTracker 处理，它位于执行工作的一部分，在每个数据节点上。
TaskTracker 的责任是发送进度报告到JobTracker。
此外，TaskTracker 周期性地发送“心跳”信号信息给 JobTracker 以便通知系统它的当前状态。
这样 JobTracker 就可以跟踪每项工作的总体进度。在任务失败的情况下，JobTracker 可以在不同的 TaskTracker 重新调度它。

MapReduce 实验 (一) 原理

相关阅读