知了就是CHAN

数据倾斜以为着某一个或者某几个partition的数据特别大，导致这几个partition上的计算需要耗费相当长的时间。在spark中同一个应用程序划分成多个stage，这些stage之间是串行执行的，而一个stage里面的多个task是可以并行执行，task数目由partition数目决定，如果一个partition的数目特别大，那么导致这个task执行时间很长，导致接下来的stage无法执行，从而导致整个job执行变慢。避免数据倾斜，一般是要选用合适的key，或者自己定义相关的partitioner，通过加盐或者哈希值来拆分这些key，从而将这些数据分散到不同的partition去执行。如下算子会导致shuffle操作，是导致数据倾斜可能发生的关键点所在： groupByKey； reduceByKey； aggregaByKey； join； cogroup

首页

SPARK

Spark数据倾斜及解决简诉

1

首页 SPARK

Spark数据倾斜及解决简诉

1

首页

SPARK