1.ESL笔记：监督学习综述（1）——从最小二乘和最近邻想开的

编程入门行业动态更新时间:2024-10-12 03:21:37

1.ESL笔记：监督学习综述（1）——从最小二乘和最<a href=https://www.elefans.com/category/jswz/34/1765532.html style= 近邻想开的"/>

1.ESL笔记：监督学习综述（1）——从最小二乘和最近邻想开的

（中间跳过了几个例子，感兴趣的可以去看看原书）

变量类型与术语

对于常见的机器学习模型，我们的变量都有两种类型：定性（qualititative）以及定量（quantitative）的。举个例子，{金毛，哈士奇，腊肠}就属于定性的描述，各种数字类的输出，比如当天的气温，就属于定量化的描述。定性变量有时候也称作分类变量（categorical）或离散变量（discrete）。

根据我们的模型输出不同，我们对模型的命名也产生了约定俗成的表达：对于输出量化值的模型，我们称为回归（regression）模型；对于输出定性值的模型，我们称为分类（classification）模型。

事实上我们还有第三种变量类型，称作有序的分类（ordered categorical）。比如{小，中，大，巨大}这样，各个分类之间存在一定的顺序关系。书中第四章会谈到它。

定性表达的变量，在计算机中，一般通过数值化表达才能够作为模型输入。我们不可能直接将“金毛”，“吉娃娃”这样的词输入模型，因为模型根本无法理解。对于二元取值空间，比如{成功，失败}，{男，女}这样非黑即白的定性变量，我们直接用0-1或者1,-1这样的数值表达就可以了。如果取值空间不止二元，那么我们有很多种方式能够来表达。最常见的就是虚拟变量（dummy variable）——假设取值空间的大小为K，那么对于这个变量，我们就用长度为K的二元矢量来表示。矢量中，只有一个元素为1，代表这个具体的取值，其余部分都是0。

举个例子：假设取值空间为{金毛，吉娃娃，腊肠，边牧，哈士奇，法斗}，那么变量k=[0,0,0,0,0,1]代表的就是法斗了。

最后，约定俗成地，模型的输入变量一般都用 X X $X$ 表示，模型的输出，如果是定性的，那么用G" role="presentation" style="position: relative;"> $G$ 表示；如果是定量的，那么用 Y Y $Y$ 表示。

模型预测的两种简单方法：最小二乘，最近邻

线性模型叱咤统计学领域已经有30多年了，但仍旧是最重要的工具之一。给定一个输入向量XT=(X1,X2,...,Xp)" role="presentation" style="position: relative;"> $X^T=(X_1,X_2,...,X_p)$ ，线性模型对输出 Y Y $Y$ 的预测为：