李宏毅机器学习中文课程作业二:预测赢家还是输家

编程入门 行业动态 更新时间:2024-10-24 05:19:34

李宏毅机器学习中文课程作业二:预测赢家还是<a href=https://www.elefans.com/category/jswz/34/1701508.html style=输家"/>

李宏毅机器学习中文课程作业二:预测赢家还是输家

一、作业要求

给定训练集spam_train.csv,要求根据每个ID各种属性值来判断该ID对应角色是Winner还是Losser(收入是否大于50K),这是一个典型的二分类问题。
训练集介绍:

  1. CSV文件,大小为4000行X59列;
  2. 4000行数据对应着4000个角色,ID编号从1到4001;
  3. 59列数据中, 第一列为角色ID,最后一列为分类结果,即label(0、1两种),中间的57列为角色对应的57种属性值;

二、思路分析及代码实现

思路分析:

这是一个典型的二分类问题,结合课上所学内容,决定采用Logistic回归算法。
与线性回归用于预测不同,Logistic回归则常用于分类(通常是二分类问题)。Logistic回归实质上就是在普通的线性回归后面加上了一个sigmoid函数,把线性回归预测到的数值压缩成为一个概率,进而实现二分类(关于线性回归模型,可参考上一次作业)。
在损失函数方面,Logistic回归并没有使用传统的欧式距离来度量误差,而使用了交叉熵(用于衡量两个概率分布之间的相似程度)。

代码实现:

具体原理可参考:传送门

1. 数据预处理
读入文件,先将最后两列进行归一化操作。然后将文件分为训练集和验证集,并分布保存为python

更多推荐

李宏毅机器学习中文课程作业二:预测赢家还是输家

本文发布于:2024-02-26 05:33:40,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1701505.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:输家   作业   中文   赢家   机器

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!