聚合在PySpark的DataFrame中的列数组?

编程入门 行业动态 更新时间:2024-10-27 22:28:19
本文介绍了聚合在PySpark的DataFrame中的列数组?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述

假设我有以下 DataFrame :

[Row(user='bob', values=[0.5, 0.3, 0.2]), Row(user='bob', values=[0.1, 0.3, 0.6]), Row(user='bob', values=[0.8, 0.1, 0.1])]

我想 groupBy user 并执行 avg(values)这样的平均值接管数组的每个索引 values ,像这样:

I would like to groupBy user and do something like avg(values) where the average is taken over each index of the array values like this:

[Row(user='bob', avgerages=[0.466667, 0.233333, 0.3])]

我该如何

推荐答案

您可以展开数组并计算每个索引的平均值。

You can expand array and compute average for each index.

Python

from pyspark.sql.functions import array, avg, col n = len(df.select("values").first()[0]) df.groupBy("user").agg( array(*[avg(col("values")[i]) for i in range(n)]).alias("averages") )

斯卡拉

import spark.implicits._ import org.apache.spark.functions.{avg, size} val df = Seq( ("bob", Seq(0.5, 0.3, 0.2)), ("bob", Seq(0.1, 0.3, 0.6)) ).toDF("user", "values") val n = df.select(size($"values")).as[Int].first val values = (0 to n).map(i => $"values"(i)) df.select($"user" +: values: _*).groupBy($"user").avg()

更多推荐

聚合在PySpark的DataFrame中的列数组?

本文发布于:2023-11-22 00:42:04,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1615306.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:数组   PySpark   DataFrame

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!