机器学习(一)】什么是机器学习、监督学习及无监督学习"/>
【机器学习(一)】什么是机器学习、监督学习及无监督学习
声明:本文是以吴恩达机器学习系列课程为学习对象而作的学习笔记。本文对应P1-P4。
什么是机器学习
一个适当的学习问题定义如下:计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。——Tom Mitchell(1998)
Arthur Samuel曾经编写了一个跳棋游戏程序,他使程序与自己对弈几万次,通过观察哪些布局容易赢,哪些布局容易输,使计算机学会下跳棋。
那么对于跳棋游戏,经验E就是程序与自己下几万次跳棋;任务T就是玩跳棋;性能度量P就是与新对手玩跳棋时赢的概率。
监督学习
给算法一个数据集,其中包含了正确答案,在这个数据集中的每个样本,我们想要算法预测并得出的“正确答案”。——吴恩达
回归问题
回归是指设法预测连续值的属性,目标是预测一个连续值输出。
举例:
现收集了一组数据并绘制了一个数据集。横轴是不同房屋的平方英尺数,纵轴是不同房子的价格,单位是千美元。
拥有了这些数据,假设现在需要抛售一栋750平方英尺的房子,并想得到目前的市场价格。学习算法能做到的一件事就是:根据数据画一条直线,或者说,用一条直线拟合数据:
基于此,可以看出:房子可以卖大约15万美元。
当然,你也可以使用二次函数或者二阶多项式来拟合数据,效果可能会更好:
如此一来,看上去它可以卖出接近20万美元。
这便是监督学习算法的一个例子:
监督学习是指:我们给算法一个数据集,其中包含了正确答案,也就是说我们给它一个房价数据集,在这个数据集中的每个样本,我们都给出正确的价格,即这个房子实际卖价,算法的目的就是给出更多的正确答案。例如为这个急需卖出的房子给出估价。我们想要算法预测并得出的“正确答案”。
分类问题
目的是预测离散值输出
举例:现在有两组病人,年龄与肿瘤大小如下:
假设有一个人很不幸有一个肿瘤,他的年龄与肿瘤大小如下图粉色圆点所示:
因此在给定的数据集上,学习算法能做的,就是在数据上画出一条直线,设法将恶性肿瘤和良性肿瘤分开。现在就可以通过这个判断这个人的肿瘤类型。
这种情况下有两种特征,即病人的年纪和肿瘤大小。在其他的机器学习算法中,往往会有更多的特征。
无监督学习
在无监督学习中,给定的所有数据都具有相同的标签或者都没有标签。得到一个数据集,我们不知道要拿它来做什么,也不知道每个数据点究竟是什么,仅被告知这里有一个数据集。
聚类算法
对于给定的数据集,无监督学习算法可能判定,该数据集包含两个不同的簇。
无监督学习算法可以把这些数据分成两个不同的簇,这就是聚类算法。它在各种领域都有广泛运用。
受视频篇幅以及课程内容编排影响,吴先生的视频仅讲了以上一部分内容,对监督学习及无监督学习感兴趣的可以看看我先前写的一篇文章:
【Python】机器学习入门(一)——监督学习和无监督学习
更多推荐
【机器学习(一)】什么是机器学习、监督学习及无监督学习
发布评论