如何使用pySpark数据框的多个列创建BinaryType列?

编程入门 行业动态 更新时间:2024-10-26 04:22:56
本文介绍了如何使用pySpark数据框的多个列创建BinaryType列?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述

我最近开始使用pySpark,所以对此一无所知.

I have recently started working with pySpark so don't know about many details regarding this.

我正在尝试在数据框中创建BinaryType列?但是努力去做...

I am trying to create a BinaryType column in a data frame? But struggling to do it...

例如,让我们看一个简单的df

for example, let's take a simple df

df.show(2)

+---+----------+ | col1|col2| +---+----------+ | "1"| null| | "2"| "20"| +---+----------+

现在,我想使用BinaryType作为第三列"col3"

Now I want to have a third column "col3" with BinaryType like

| col1|col2| col3| +---+----------+ | "1"| null|[1 null] | "2"| "20"|[ 2 20] +---+----------+

我应该怎么做?

推荐答案

尝试一下:

a = [('1', None), ('2', '20')] df = spark.createDataFrame(a, ['col1', 'col2']) df.show() +----+----+ |col1|col2| +----+----+ | 1|null| | 2| 20| +----+----+ df = df.withColumn('col3', F.array(['col1', 'col2'])) df.show() +----+----+-------+ |col1|col2| col3| +----+----+-------+ | 1|null| [1,]| | 2| 20|[2, 20]| +----+----+-------+

更多推荐

如何使用pySpark数据框的多个列创建BinaryType列?

本文发布于:2023-07-20 17:44:01,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1169659.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:多个   如何使用   数据   BinaryType   pySpark

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!