spark shuffle原理

1.spark中窄依赖的时候不需要shuffle,只有宽依赖的时候需要shuffle,mapreduce中map到reduce必须经过shuffle 2.spark中的shuffle fetch的时候进行merge操作利用aggregator来进行,实际上是个hashmap,放在内存中 1 // Map: "cat" -> c, cat 2 val rdd1 = rdd.Map(x => (x.c
相关文章
相关标签/搜索