summarize+group"/>
R summarize+group
上一篇文章中写到了管道,这部分主要写一下处理缺失值,计数,常用的摘要函数,按多个变量分组和取消组。
一、处理缺失值
有两种比较好的方法:①使用na.rm=TRUE;②使用!is.na()
场景一:我们想计算一下飞机飞行距离及延误到达时间。
delay<- flights%>%group_by(dest)%>%summarize(count=n(), #起到计数的作用dis = mean(distance),arr_delay = mean(arr_delay))
delay
输出结果:
出现了很多NA,说明有些飞机是取消航班的,但也被记录了下来。
加个na.rm=TRUE会是什么样的呢?
delay<- flights%>%group_by(dest)%>%summarize(count=n(), #起到计数的作用dis = mean(distance,na.rm=TRUE),arr_delay = mean(arr_delay,na.rm=TRUE))
dela
更多推荐
R summarize+group
发布评论