聚合在PySpark的DataFrame中的列数组？

编程入门行业动态更新时间:2024-10-27 22:28:19

本文介绍了聚合在PySpark的DataFrame中的列数组？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！问题描述

假设我有以下 DataFrame ：

[Row(user='bob', values=[0.5, 0.3, 0.2]), Row(user='bob', values=[0.1, 0.3, 0.6]), Row(user='bob', values=[0.8, 0.1, 0.1])]

我想 groupBy user 并执行 avg（values）这样的平均值接管数组的每个索引 values ，像这样：

I would like to groupBy user and do something like avg(values) where the average is taken over each index of the array values like this:

[Row(user='bob', avgerages=[0.466667, 0.233333, 0.3])]

我该如何

推荐答案

您可以展开数组并计算每个索引的平均值。

You can expand array and compute average for each index.

Python

from pyspark.sql.functions import array, avg, col n = len(df.select("values").first()[0]) df.groupBy("user").agg( array(*[avg(col("values")[i]) for i in range(n)]).alias("averages") )

斯卡拉

import spark.implicits._ import org.apache.spark.functions.{avg, size} val df = Seq( ("bob", Seq(0.5, 0.3, 0.2)), ("bob", Seq(0.1, 0.3, 0.6)) ).toDF("user", "values") val n = df.select(size($"values")).as[Int].first val values = (0 to n).map(i => $"values"(i)) df.select($"user" +: values: _*).groupBy($"user").avg()