MapReduce的Shuffle原理

什么是Shuffle

Hadoop计算框架Shuffler, 在mapper和reducer中间的一个步骤 ,可以把mapper的输出按照某种key值重新切分和组合成n份,把key值符 合某种范围的输出送到特定的reducer那里去处理

Shuffle的原理分析

这里写图片描述

运行步骤如下:
step1:map端调用context.write(),先将数据写到map的缓冲区中,当缓冲区的填充比达到一个阈值的时候,系统中会开启一个后台线程spill,负责将数据写入到磁盘,这个过程称为溢出,每次溢出的时候,溢出的数据会写入到mapreduce.cluster.local.dir目录下的一个文件中
step2:在spill溢出的时候,就会调用Partitioner和Sort,都是根据KV的key进行分组和排序的,并且如果定义了Combiner那么Combiner还会执行
step3:在一次map过程中,会产生多个溢出文件,当map最终完成的时候,在本地的磁盘上可能会存在多个有分区编号的溢出文件,这些文件最终会被合并成一个排好序的含有分区编号的文件。在这里需要注意的是,在最终生成的文件之前也会执行Combiner
step4:reduce会使用HTTP协议从Mapper节点获得属于自己的划分,每个Reduce默认会使用5个线程从mapper节点获取数据

详细解析:
step1中缓冲区填充比的阈值是由mapreduce.map.sort.spill.percent定义的,默认值0.8,缓冲区的大小mapreduce.task.io.sort.mb其默认大小是512MB,缓冲区的大小会影响到排序的效率,一般来说,缓冲区越大,排序的效率越大,但是内存是有限的,增大缓冲区的大小会影响到每个节点能运行的maptask的数量

step4中reduce怎么会知道自己的划分呢?每个map实例完成后,其会通知ApplicationMaster其运行过程中产生的划分,每个reduce会一直定期的查询AM,直到reduce获得最后一个托管其分区的节点,当map实例完成的个数超过mapreduce.job.reduce.slowstart.completedmaps规定的值之后,reduce阶段就会执行