近邻想开的"/>
1.ESL笔记:监督学习综述(1)——从最小二乘和最近邻想开的
(中间跳过了几个例子,感兴趣的可以去看看原书)
变量类型与术语
对于常见的机器学习模型,我们的变量都有两种类型:定性(qualititative)以及定量(quantitative)的。举个例子,{金毛,哈士奇,腊肠}就属于定性的描述,各种数字类的输出,比如当天的气温,就属于定量化的描述。定性变量有时候也称作分类变量(categorical)或离散变量(discrete)。
根据我们的模型输出不同,我们对模型的命名也产生了约定俗成的表达:对于输出量化值的模型,我们称为回归(regression)模型;对于输出定性值的模型,我们称为分类(classification)模型。
事实上我们还有第三种变量类型,称作有序的分类(ordered categorical)。比如{小,中,大,巨大}这样,各个分类之间存在一定的顺序关系。书中第四章会谈到它。
定性表达的变量,在计算机中,一般通过数值化表达才能够作为模型输入。我们不可能直接将“金毛”,“吉娃娃”这样的词输入模型,因为模型根本无法理解。对于二元取值空间,比如{成功,失败},{男,女}这样非黑即白的定性变量,我们直接用0-1或者1,-1这样的数值表达就可以了。如果取值空间不止二元,那么我们有很多种方式能够来表达。最常见的就是虚拟变量(dummy variable)——假设取值空间的大小为K,那么对于这个变量,我们就用长度为K的二元矢量来表示。矢量中,只有一个元素为1,代表这个具体的取值,其余部分都是0。
举个例子:假设取值空间为{金毛,吉娃娃,腊肠,边牧,哈士奇,法斗},那么变量k=[0,0,0,0,0,1]代表的就是法斗了。
最后,约定俗成地,模型的输入变量一般都用 X X 表示,模型的输出,如果是定性的,那么用
模型预测的两种简单方法:最小二乘,最近邻
线性模型叱咤统计学领域已经有30多年了,但仍旧是最重要的工具之一。给定一个输入向量
其中, β^0 β ^ 0 是截距项,有时候也称作是偏差(bias)。一般来说,我们会在 X X 变量里加上一个常量1,把
更多推荐
1.ESL笔记:监督学习综述(1)——从最小二乘和最近邻想开的
发布评论