1.ESL笔记:监督学习综述(1)——从最小二乘和最近邻想开的

编程入门 行业动态 更新时间:2024-10-12 03:21:37

1.ESL笔记:监督学习综述(1)——从最小二乘和最<a href=https://www.elefans.com/category/jswz/34/1765532.html style=近邻想开的"/>

1.ESL笔记:监督学习综述(1)——从最小二乘和最近邻想开的

(中间跳过了几个例子,感兴趣的可以去看看原书)

变量类型与术语

对于常见的机器学习模型,我们的变量都有两种类型:定性(qualititative)以及定量(quantitative)的。举个例子,{金毛,哈士奇,腊肠}就属于定性的描述,各种数字类的输出,比如当天的气温,就属于定量化的描述。定性变量有时候也称作分类变量(categorical)离散变量(discrete)

根据我们的模型输出不同,我们对模型的命名也产生了约定俗成的表达:对于输出量化值的模型,我们称为回归(regression)模型;对于输出定性值的模型,我们称为分类(classification)模型。

事实上我们还有第三种变量类型,称作有序的分类(ordered categorical)。比如{小,中,大,巨大}这样,各个分类之间存在一定的顺序关系。书中第四章会谈到它。

定性表达的变量,在计算机中,一般通过数值化表达才能够作为模型输入。我们不可能直接将“金毛”,“吉娃娃”这样的词输入模型,因为模型根本无法理解。对于二元取值空间,比如{成功,失败}{男,女}这样非黑即白的定性变量,我们直接用0-1或者1,-1这样的数值表达就可以了。如果取值空间不止二元,那么我们有很多种方式能够来表达。最常见的就是虚拟变量(dummy variable)——假设取值空间的大小为K,那么对于这个变量,我们就用长度为K的二元矢量来表示。矢量中,只有一个元素为1,代表这个具体的取值,其余部分都是0。

举个例子:假设取值空间为{金毛,吉娃娃,腊肠,边牧,哈士奇,法斗},那么变量k=[0,0,0,0,0,1]代表的就是法斗了。

最后,约定俗成地,模型的输入变量一般都用 X X 表示,模型的输出,如果是定性的,那么用G" role="presentation" style="position: relative;">G表示;如果是定量的,那么用 Y Y 表示。

模型预测的两种简单方法:最小二乘,最近邻

线性模型叱咤统计学领域已经有30多年了,但仍旧是最重要的工具之一。给定一个输入向量XT=(X1,X2,...,Xp)" role="presentation" style="position: relative;">XT=(X1,X2,...,Xp),线性模型对输出 Y Y 的预测为:

Y&#x005E;=&#x03B2;&#x005E;0+&#x2211;j=1pXj&#x03B2;&#x005E;j" role="presentation">Y^=β^0+j=1pXjβ^j

其中, β^0 β ^ 0 是截距项,有时候也称作是偏差(bias)。一般来说,我们会在 X X 变量里加上一个常量1,把&#x03B2;&#x005E;0" role="presentation" style="position: relative;">

更多推荐

1.ESL笔记:监督学习综述(1)——从最小二乘和最近邻想开的

本文发布于:2024-03-15 01:13:22,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1737781.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:近邻   小二   笔记   ESL

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!