admin管理员组文章数量:1656763
功能:判断车辆轨迹数据在指定区域内停留时间超过半小时。
实现思路:车辆定位数据生成RDD,遍历RDD每个元素,判断是否在指定区域内,如果在,则累加计算停留时间,最后判断停留时间是否超过半小时。
代码:
sortLocationInfoRDD.foreachPartition(
new VoidFunction<Iterator<CarLocationInfo>>() {
@Override
public void call(Iterator<CarLocationInfo> iterator) throws Exception {
Jedis jedis = JedisUtil.getInstance().getJedis(Constants.REDIS_IP, Constants.REDIS_PORT);
while (iterator.hasNext()) {
CarLocationInfo locationInfo = iterator.next();
System.out.println("开始:"+System.currentTimeMillis());
//判断定位点是否在指定区域内,然后使用Redis记录停留状态和累计停留时间
System.out.println("结束:"+System.currentTimeMillis());
}
JedisUtil.getInstance().closeJedis(jedis, Constants.REDIS_IP, Constants.REDIS_PORT);
}
}
);
问题:采用yarn-client方式运行,查看log发现开始时间和结束时间花费时间达数秒,而使用java程序单独运行区域判别程序,速度很快。也就是出现spark yarn模式运行速度还不如单台电脑。
排查过程:
1.首先是网上查了一下Spark程序运行缓慢、Spark性能调优的方法,更多是一些参数配置性的操作,然并卵。
2.查看spark job,发现程序卡在foreachPartitions。
foreachPartitions中有两部分代码,一部分是判别定位点是否在指定区域内,另一部分是对Redis的操作。
注释掉Redis操作部分代码,执行程序,发现运行速度是正常的,所有最终定位到时对Redis的操作造成了程序运行缓慢,由于所有操作都针对Redis上的一个key-value,所以怀疑是Redis并发操作造成阻塞。
经验证,确实是Redis的并发操作造成阻塞。
如下代码,竟然几分钟都执行不完。
Jedis jedis = new Jedis(Constants.REDIS_IP, Constants.REDIS_PORT);
System.out.println(System.currentTimeMillis());
for (int j=0; j<100; j++) {
for (int i=0; i<7000;i++) {
jedis.set("key1", "value1");
jedis.get("key1");
}
}
System.out.println(System.currentTimeMillis());
解决办法:
在foreachPartition下使用内存变量来记录状态,可以达到使用Redis同样的目的。
总结:
注意检查Redis的操作,比如是否关闭Redis连接等,是否存在并发操作Redis的一个值。
版权声明:本文标题:一次Spark程序运行缓慢原因排查 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1729748576a1211929.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论