机器学习 2.数据集分割与处理

编程入门 行业动态 更新时间:2024-10-24 16:25:45

<a href=https://www.elefans.com/category/jswz/34/1771242.html style=机器学习 2.数据集分割与处理"/>

机器学习 2.数据集分割与处理

1.首先进行x和y分割

numpy里的split作用是分割列表

x , y = np.split(data, (4,), axis=1)#data是要分割的数组,一定是array类型的,如果是list要用numpy的方法转成array#第二项如果为整数,就是平均分割成几份,如果为(4,)就是分割位置为第四列及以前为一组,以后为另一组#根据行或者列分割数组(axis=0是行,=1是列)

2.筛选x的某些列

因为我们并不一定是所有列都要,所以可能这里会舍弃一些列,通过以下方式选择需要的行或列

#连续的x = x[:,1:2]
#选择所有行与1-2列 (左开右闭,所以只有第二列)
#选择某一些间断的x = x[:,[1,2]]
#选择第二和第三列(因为这里下标是从0开始)

3.分割测试集和训练集

1.调入sklearn.model_selection中的方法train_test_split

from sklearn.model_selection import train_test_split

2.使用这个方法分割

X_train,X_test, y_train, y_test =train_test_split(x,y,test_size, random_state)#test_size在0-1之间,为测试集在全部样品中的比例,如果为整数,则为测试集的数目
#random_state为随机数种子

注:random_state作用是让每次的随机方式一样,这样的话每次做实验都能得到一样的结果,从而方便我们调超参数,不然每次训练的效果都不一样,没法调参的时候看调参的效果

更多推荐

机器学习 2.数据集分割与处理

本文发布于:2024-03-09 08:59:50,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1724541.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:机器   数据

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!