使用Pyspark 运行lightgbm的预测函数时遇到 expected zero arguments for construction of ClassDict (for numpy.dtype)|电子爱好者

admin管理员组
文章数量:1602102

运行Pyspark,出现：net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (for numpy.dtype)

流程

使用将模型预测功能封装成udf,供spark使用，udf 填入的是各个列名，但udf使用的函数是处理成一行的数据，如

数据样例：

      col_1  col_2  col_3  col_4  col_5  col_6  col_7  col_8  col_9  col_10  \
0       1.0    1.0    1.0    1.0    1.0    1.0    1.0   1.00    1.0     1.0   
1       1.0    1.0    1.0    1.0    1.0    1.0    0.0   1.00    1.0     1.0   
2       1.0    1.0    1.0    1.0    1.0    1.0    1.0   1.00    1.0     1.0   
3       1.0    1.0    1.0    1.0    1.0    1.0    1.0   1.00    1.0     1.0   
4       1.0    1.0    1.0    1.0    1.0    1.0    0.0   1.00    1.0     1.0   
...     ...    ...    ...    ...    ...    ...    ...    ...    ...     ...   
1110    1.0    1.0    1.0    1.0    1.0    1.0    0.0   1.00    1.0     1.0   
1111    1.0    1.0    1.0    1.0    1.0    1.0    0.0   1.00    1.0     1.0   
1112    1.0    0.0    0.0    1.0    1.0    1.0    0.0   0.04    1.0     1.0   
1113    1.0    1.0    1.0    1.0    1.0    0.0    1.0   1.00    1.0     1.0   
1114    1.0    1.0    1.0    1.0    1.0    1.0    0.0   1.00    1.0     1.0

predct_multicase 处理的是其中的一行数据：

gbm.predict()入参是个二维list，所以，x_test 对原始数据改为list。

def predict_multicase(df_columns):
    '''
     预测得分并排序
    :param x_test:
    :return:
    '''
    x_test = [df_columns]
    ypred = gbm.predict(x_test)
    return ypred[0]
udf_predict_multicase = F.udf(predict_multicase, T.DoubleType())
# df1 为pandas 格式数组
df = spark.createDataFrame(df1)
df_colums = df.columns
df2 = df.withColumn("rank_score",udf_predict_multicase(F.struct([df[col] for col in df_colums])))
df2.show()

运行报错：

Job aborted due to stage failure: Task 0 in stage 5.0 failed 4 times, most recent failure:: net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (for numpy.dtype)
	at net.razorvine.pickle.objects.ClassDictConstructor.construct(ClassDictConstructor.java:23)
	at net.razorvine.pickle.Unpickler.load_reduce(Unpickler.java:707)
	at net.razorvine.pickle.Unpickler.dispatch(Unpickler.java:175)
	at net.razorvine.pickle.Unpickler.load(Unpickler.java:99)
	at net.razorvine.pickle.Unpickler.loads(Unpickler.java:112)
	at org.apache.spark.sql.execution.python.BatchEvalPythonExec$$anonfun$doExecute$1$$anonfun$apply$6.apply(BatchEvalPythonExec.scala:156)
	at org.apache.spark.sql.execution.python.BatchEvalPythonExec$$anonfun$doExecute$1$$anonfun$apply$6.apply(BatchEvalPythonExec.scala:155)
	at scala.collection.Iterator$$anon$12.nextCur(Iterator.scala:434)
	at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:440)
	at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)
	at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
	at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:395)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:234)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:228)
	at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:834)
	at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:834)
	at org.apache.spark.rdd.MapPartitionsRDDpute(MapPartitionsRDD.scala:43)
	at org.apache.spark.rdd.RDDputeOrReadCheckpoint(RDD.scala:323)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:89)
	at org.apache.spark.scheduler.Task.run(Task.scala:112)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:388)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
	at java.lang.Thread.run(Thread.java:745)

Driver stacktrace:

发现主要是数据类型没有对应上，将predict的结果转成float类型,将udf中的数据返回参数改为T.FolatType

def predict_multicase(df_columns):
    '''
     预测得分并排序
    :param x_test:
    :param comments:
    :param model_input_path:
    :return:
    '''
    x_test = [df_columns]
    ypred = gbm.predict(x_test)


    return float(ypred[0])


udf_predict_multicase = F.udf(predict_multicase, T.FloatType())

运行结果：

	col_1	col_2	col_3	col_4	col_5	col_6	col_7	col_8	col_9	col_10	col_11	col_12	col_13	rank_score
0	1.0	1.0	1.0	1.0	1.0	1.0	1.0	1.00	1.0	1.0	0.200000	0.0	1.0	0.018608
1	1.0	1.0	1.0	1.0	1.0	1.0	0.0	1.00	1.0	1.0	0.200000	0.0	0.0	-0.014879
2	1.0	1.0	1.0	1.0	1.0	1.0	1.0	1.00	1.0	1.0	0.166667	0.0	1.0	0.015165
3	1.0	1.0	1.0	1.0	1.0	1.0	1.0	1.00	1.0	1.0	0.166667	0.0	0.0	-0.012573
4	1.0	1.0	1.0	1.0	1.0	1.0	0.0	1.00	1.0	1.0	0.333333	0.0	0.0	-0.017949
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
1110	1.0	1.0	1.0	1.0	1.0	1.0	0.0	1.00	1.0	1.0	0.250000	0.0	0.0	-0.018355
1111	1.0	1.0	1.0	1.0	1.0	1.0	0.0	1.00	1.0	1.0	0.250000	0.0	0.0	-0.018355
1112	1.0	0.0	0.0	1.0	1.0	1.0	0.0	0.04	1.0	1.0	0.200000	0.0	1.0	0.008962
1113	1.0	1.0	1.0	1.0	1.0	0.0	1.0	1.00	1.0	1.0	0.250000	0.0	1.0	0.010648
1114	1.0	1.0	1.0	1.0	1.0	1.0	0.0	1.00	1.0	1.0	0.333333	0.0	1.0	0.009966

本文标签：函数 expected pyspark lightgbm arguments

版权声明：本文标题：使用Pyspark 运行lightgbm的预测函数时遇到 expected zero arguments for construction of ClassDict (for numpy.dtype) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728397118a1157137.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

ptmalloc源码分析 - _int_malloc函数之smallbins和unsorted bin（07）

7天前

目录一、smallbins的定义和空闲链表的使用条件二、smallbins的具体实现三、malloc_consolidate整理操作四、unsorted bin的具体实现前一章，我们讲解了fastbi

win10家庭版调出组策略（gpedit.msc）要求的函数不受支持

6天前

win10家庭版默认是没有组策略的组策略对于优化和维护Windows系统来说十分重要。组策略编辑器是Windows最核心的功能之一，用于实现更高级的操作系统管理功能，具有非常实用的许多功能。

记录一次激活函数导致的LeNet不收敛

6天前

环境：PyTorch-1.7.1 问题描述：LeNet在MNIST上的loss不收敛，训练集和测试集准确率始终在10%上下。不论如何调整learning rate都无济于事。

Keras中使用如Leaky ReLU等高级激活函数的方法

6天前

在用Keras来实现CNN等一系列网络时，我们经常用ReLU作为激活函数，一般写法如下： from keras import layersfrom keras impor

05-函数-c语言初学系列

4天前

第六讲函数知识要点 6.1 概述 6.2 函数的定义 6.3 函数的返回值 6.4 函数的调用 6.5 函数的递归调用 6.1 概述 C程序是由一个主函数和其它若干函数构成，每个函数实现一定的功能&

新版亚组交互效应函数（P for interaction）newscitb5 1.3版本发布--用于一键生成交互效应表

3天前

在SCI文章中，交互效应表格（通常是表五）能为文章锦上添花，增加文章的信服力，增加结果的可信程度，还能进行数

R语言使用aov函数进行双因素方差分析（Two-way factorial ANOVA）、使用HH包中的interaction2wt函数为任何阶的双因素方差分析可视化主效应和交互作用图、箱图显示主效应

3天前

R语言使用aov函数进行双因素方差分析（Two-way factorial ANOVA）、使用HH包中的interaction2wt函数为任何阶的双因素方差分析可视化主效应和交互作用图（Main effects and two-way in

《大数据机器学习实践探索》---- 使用pyspark 进行kaggle比赛Give me some credit数据集的建模与分析（1. 数据准备与EDA）

3天前

文章大纲简介项目流程基础环境准备数据探查与EDA数据含义pyspark schemaEDA (Exploratory Data Analysis ) ---- 数据探查参考文献简介 Banks play a crucial role i

windows中pyspark的配置

3天前

Windows 中pyspark的配置 1. Windows 安装配置 PySpark 开发环境（详细步骤原理分析）2. Windows系统下解压".tar"文件出错&

R语言使用leaps包中的regsubsets函数实现全集子集回归、使用调整R方和Mallows Cp统计量筛选最佳模型、并可视化不同组合参数下的模型指标

2天前

R语言使用leaps包中的regsubsets函数实现全集子集回归（All Subsets Regression，ASR）、使用调整R方和Mallows Cp统计量筛选最佳模型、并可视化不同组合参数下的模型指标、使用leaps包的plot函

个人永久性免费-Excel催化剂功能第42波-任意字符指定长度随机函数

2天前

日常做表过程中，难免会有一些构造数据的场景，构造数据最好是用随机的数据，如随机密码，随机英文字母、数字等。在Excel原生的随机函数Rand中&

个人永久性免费-Excel催化剂功能第46波-区域集合函数，超乎所求所想

2天前

在常规自定义函数的世界中，一般情况下，仅会输入一堆的参数，最终输出一个结果值，在以往Excel催化剂的自定义函数，已经大量出现输入

个人永久性免费-Excel催化剂功能第37波-把Sqlserver的强大分析函数拿到Excel中用...

2天前

本人一直钟情于使用Sqlserver数据库的一大原因是其提供了非常好用、高效的数据分析函数（窗口函数），可以在做数据清洗和数据分析场合等多个场景使用。只需简单的一个函数即可做

专业解析：移动硬盘“函数不正确”问题及高效数据恢复策略

1天前

在日常使用移动硬盘的过程中，不少用户可能会遭遇“函数不正确”的错误提示。这一问题往往表现为无法访问硬盘中的文件或文件夹，系统报错信息指向函数执行异常。其背后的原因多种多样，可

pandas使用apply函数基于条件（if condition）生成新的数据列

22小时前

pandas使用apply函数基于条件（if condition）生成新的数据列目录 pandas使用apply函数基于条件（if condition）生成新的数据列 #df.loc方法数值判断生成新的列 #apply+ifelse

目标检测算法——YOLOv5YOLOv7改进之更换FReLU激活函数

17小时前

深度学习Tricks，第一时间送达论文地址：https:arxivpdf2007.11824.pdf 代码地址：https:githubmegvii-mod

发生身份验证错误要求的函数不受支持 Windows远程桌面连接（腾讯云，阿里云服务器远程登录）

3小时前

刚购买的阿里云服务器登录时报错，“发生身份验证错误要求的函数不受支持 Windows远程桌面连接远程计算机：”。解决方案： 一、修改本地电脑组策略设置&#xf

远程桌面无法验证计算机身份验证,远程桌面时出现“身份验证错误，要求的函数不受支持”解决办法...

3小时前

远程桌面时 “出现身份验证错误，要求的函数不受支持”的错误，如图所示： 这是由于本地客户端或者服务器端一方更新了CVE-2018-0886 的 CredSSP 补丁&

蓝图构造函数ConstructionScript

2小时前

本篇介绍蓝图构造函数Construction Script CSDN的博客添加图片太麻烦了，而且链接网页图片会出现错误，如果需要看详细文章，请访问我的微信公众号《猎梦虚幻研究社》先来看一下这个函数长什么样子：很尴尬的发现这个函

【pyspark】expected zero arguments for construction of ClassDict

2小时前

记录一次pyspark数据插入到hive表里 net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (fo

电子爱好者 - 最新技术资讯及电子产品介绍！

使用Pyspark 运行lightgbm的预测函数时遇到 expected zero arguments for construction of ClassDict (for numpy.dtype)

流程

更多相关文章

ptmalloc源码分析 - _int_malloc函数之smallbins和unsorted bin（07）

win10家庭版调出组策略（gpedit.msc）要求的函数不受支持

记录一次激活函数导致的LeNet不收敛

Keras中使用如Leaky ReLU等高级激活函数的方法

05-函数-c语言初学系列

新版亚组交互效应函数（P for interaction）newscitb5 1.3版本发布--用于一键生成交互效应表

R语言使用aov函数进行双因素方差分析（Two-way factorial ANOVA）、使用HH包中的interaction2wt函数为任何阶的双因素方差分析可视化主效应和交互作用图、箱图显示主效应

《大数据机器学习实践探索》---- 使用pyspark 进行kaggle比赛Give me some credit数据集的建模与分析（1. 数据准备与EDA）

windows中pyspark的配置

R语言使用leaps包中的regsubsets函数实现全集子集回归、使用调整R方和Mallows Cp统计量筛选最佳模型、并可视化不同组合参数下的模型指标

个人永久性免费-Excel催化剂功能第42波-任意字符指定长度随机函数

个人永久性免费-Excel催化剂功能第46波-区域集合函数，超乎所求所想

个人永久性免费-Excel催化剂功能第37波-把Sqlserver的强大分析函数拿到Excel中用...

专业解析：移动硬盘“函数不正确”问题及高效数据恢复策略

pandas使用apply函数基于条件（if condition）生成新的数据列

目标检测算法——YOLOv5YOLOv7改进之更换FReLU激活函数

发生身份验证错误 要求的函数不受支持 Windows远程桌面连接（腾讯云，阿里云服务器远程登录）

远程桌面无法验证计算机身份验证,远程桌面时出现“身份验证错误，要求的函数不受支持”解决办法...

蓝图构造函数ConstructionScript

【pyspark】expected zero arguments for construction of ClassDict

发表评论

推荐文章

java 线程 wait 释放锁_java多线程中Object.wait()和Condition.await()是否会释放当前线程锁占有的锁...

【设计过程】.NET ORM FreeSql WhereDynamicFilter 动态表格查询功能

Office Tool Plus

在Excel2016中激活宏使用

Blender源码下载地址

热门文章

mysql获取存储过程中报错信息（GET DIAGNOSTICS CONDITION 1）

并发编程-19AQS同步组件之重入锁ReentrantLock、读写锁ReentrantReadWriteLock、Condition

使用远程连接忘记密码时重置密码

chatGPT提示词笔记

软考题型记录

iTunes只能装C盘吗_如何通过iTunes将iPhone备份到移动硬盘？

方方格子补丁_方方格子wps版下载 方方格子Excel工具箱插件(WPS版全套) v3.2.8.0 中文官方安装版 下载-脚本之家...

Windows 2016 服务器安全配置和加固

简单记录下手机root 过程

开源啦！我的Compiler-Construction项目

最新文章

win10系统开不了机

Windows7系统如何禁用驱动程序签名强制

在Windows 10 IoT核心版上运行ASP.NET Core 2应用程序，并设置开机启动

Win10开机示Logo后黑屏的全方位解决方案

云计算基本概念

解决Win10开机慢的问题：轻松享受快速启动体验

w ndows10密码更改,windows10账户安全登录密码

win7驱动程序未经签名可以使用吗_如何禁用win7旗舰版系统驱动程序签名强制

服务器被黑善后工作

云计算了解

Windoww 如何禁止驱动程序签名强制

联想拯救者Y7000P2019双系统安装与卸载（win10+ubuntu18.04+NVIDIA GeForce RTX2060+CUDA10.0+Cudnn+pytorch）

WIN10 开机转圈解决方案

win7怎么禁用驱动强制数字签名？win7驱动程序强制数字签名禁用方法

高效率的网站打开速度优化方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

发生身份验证错误要求的函数不受支持 Windows远程桌面连接（腾讯云，阿里云服务器远程登录）

方方格子补丁_方方格子wps版下载方方格子Excel工具箱插件(WPS版全套) v3.2.8.0 中文官方安装版下载-脚本之家...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载