admin管理员组

文章数量:1569291

记录spark异常

1. spark内存溢出:数据倾斜问题

Container killed by YARN for exceeding memory limits…
Consider boosting spark.yarn.executor.memoryOverhead

内存溢出,百度了好多,都说调整这个那个参数,都未成功。

后发现是数据倾斜问题造成(某一个task执行特别慢的时候,关注一下条数)

解决:根据提示代码1040行定位到原因,某个rdd groupBy的key全为空,导致数据倾斜

2. Stage cancelled because SparkContext was shut down

小数据量8千万跑的时候没问题,3亿条一起跑,通过聚合join之类的操作 出现这个异常,后发现是reparation设置太大了,设置了15000

解决:reparation设置的8000然后就没问题了,这个值需要根据数据量及大小预估,3亿条数据约300G左右,相当于一个partition有40M

本文标签: 异常boostingSparkmemoryOverheadExecutor