本文介绍了聚合在PySpark的DataFrame中的列数组?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
假设我有以下 DataFrame :
[Row(user='bob', values=[0.5, 0.3, 0.2]), Row(user='bob', values=[0.1, 0.3, 0.6]), Row(user='bob', values=[0.8, 0.1, 0.1])]我想 groupBy user 并执行 avg(values)这样的平均值接管数组的每个索引 values ,像这样:
I would like to groupBy user and do something like avg(values) where the average is taken over each index of the array values like this:
[Row(user='bob', avgerages=[0.466667, 0.233333, 0.3])]我该如何
推荐答案您可以展开数组并计算每个索引的平均值。
You can expand array and compute average for each index.
Python
from pyspark.sql.functions import array, avg, col n = len(df.select("values").first()[0]) df.groupBy("user").agg( array(*[avg(col("values")[i]) for i in range(n)]).alias("averages") )斯卡拉
import spark.implicits._ import org.apache.spark.functions.{avg, size} val df = Seq( ("bob", Seq(0.5, 0.3, 0.2)), ("bob", Seq(0.1, 0.3, 0.6)) ).toDF("user", "values") val n = df.select(size($"values")).as[Int].first val values = (0 to n).map(i => $"values"(i)) df.select($"user" +: values: _*).groupBy($"user").avg()更多推荐
聚合在PySpark的DataFrame中的列数组?
发布评论