MapReduce的Shuffle原理

时间 2021-01-03

什么是Shuffle

Hadoop计算框架Shuffler，在mapper和reducer中间的一个步骤，可以把mapper的输出按照某种key值重新切分和组合成n份，把key值符合某种范围的输出送到特定的reducer那里去处理

Shuffle的原理分析

运行步骤如下：
step1：map端调用context.write(),先将数据写到map的缓冲区中，当缓冲区的填充比达到一个阈值的时候，系统中会开启一个后台线程spill，负责将数据写入到磁盘，这个过程称为溢出，每次溢出的时候，溢出的数据会写入到mapreduce.cluster.local.dir目录下的一个文件中
step2：在spill溢出的时候，就会调用Partitioner和Sort,都是根据KV的key进行分组和排序的，并且如果定义了Combiner那么Combiner还会执行
step3：在一次map过程中，会产生多个溢出文件，当map最终完成的时候，在本地的磁盘上可能会存在多个有分区编号的溢出文件，这些文件最终会被合并成一个排好序的含有分区编号的文件。在这里需要注意的是，在最终生成的文件之前也会执行Combiner
step4：reduce会使用HTTP协议从Mapper节点获得属于自己的划分，每个Reduce默认会使用5个线程从mapper节点获取数据

详细解析：
step1中缓冲区填充比的阈值是由mapreduce.map.sort.spill.percent定义的,默认值0.8，缓冲区的大小mapreduce.task.io.sort.mb其默认大小是512MB，缓冲区的大小会影响到排序的效率，一般来说，缓冲区越大，排序的效率越大，但是内存是有限的，增大缓冲区的大小会影响到每个节点能运行的maptask的数量

step4中reduce怎么会知道自己的划分呢？每个map实例完成后，其会通知ApplicationMaster其运行过程中产生的划分，每个reduce会一直定期的查询AM，直到reduce获得最后一个托管其分区的节点，当map实例完成的个数超过mapreduce.job.reduce.slowstart.completedmaps规定的值之后，reduce阶段就会执行