(《机器学习》完整版系列)第8章 集成学习——8.1 简单投票法(少数服从多数)

编程入门 行业动态 更新时间:2024-10-23 20:16:05

(《机器学习》<a href=https://www.elefans.com/category/jswz/34/1770030.html style=完整版系列)第8章 集成学习——8.1 简单投票法(少数服从多数)"/>

(《机器学习》完整版系列)第8章 集成学习——8.1 简单投票法(少数服从多数)

简单投票法:以多个分类器(称为基学习器)的投票结果来作为预测。

简单投票法

设二分类问题 y ∈ { − 1 , + 1 } y \in \{-1,+1\} y∈{−1,+1},有 T T T个分类器(称为基学习器): h i , ( i = 1 , 2 , ⋯ , T ) h_i, (i=1,2,\cdots,T) hi​,(i=1,2,⋯,T)。 对于样本 x \boldsymbol{x} x,若超过半数的 h i h_i hi​预测它为 + 1 +1 +1,则定义集成分类器 h h h预测它为 + 1 +1 +1,否则为 − 1 -1 −1。 这就是简单投票法(不妨设 T T T为奇数)。 注意到 + 1 +1 +1与 − 1 -1 −1加法相消的特点,则
h ( x ) = s g n ( ∑ i = 1 T h i ( x ) ) \begin{align} h(\boldsymbol{x})=\mathrm{sgn} (\sum_{i=1}^Th_i(\boldsymbol{x})) \tag{8.1} \end{align} h(x)=sgn(i=1∑T​hi​(x))​(8.1)​

H ( x ) = ∑ i = 1 T h i ( x ) \begin{align} H(\boldsymbol{x})=\sum_{i=1}^Th_i(\boldsymbol{x}) \tag{8.2} \end{align} H(x)=i=1∑T​hi​(x)​(8.2)​
则式(8.1)的分类预测转化为式(8.2)的回归预测。

上述可视为对所有基学习器 h i ( x ) h_i(\boldsymbol{x}) hi​(x)一视同仁,现在我们希望差别对待,即对于分类效果好的基分类器给予更大的权重,这样就有了如下形式:
H ( x ) = ∑ i = 1 T α i h i ( x ) h ( x ) = s g n H ( x ) \begin{align} & H(\boldsymbol{x})=\sum_{i=1}^T{\alpha }_ih_i(\boldsymbol{x}) \tag{8.3} \\ & h(\boldsymbol{x})=\mathrm{sgn}H(\boldsymbol{x}) \tag{8.4} \end{align} ​H(x)=i=1∑T​αi​hi​(x)h(x)=sgnH(x)​(8.3)(8.4)​

设样本 x \boldsymbol{x} x的真实值为 f ( x ) f(\boldsymbol{x}) f(x),我们再来构造一个适当的损失函数。

对于分类器 g g g定义损失函数为
ℓ ( g ( x ) ) = { 0 , 当 g ( x ) = f ( x ) 时 1 , 当 g ( x ) ≠ f ( x ) 时 = { 0 , 当 g ( x ) f ( x ) = 1 时 1 , 当 g ( x ) f ( x ) = − 1 时 \begin{align} {\ell} (g(\boldsymbol{x})) & = \begin{cases} \, 0 ,\qquad \text{当$g(\boldsymbol{x})=f(\boldsymbol{x})$时} \\ \, 1 ,\qquad \text{当$g(\boldsymbol{x})\neq f(\boldsymbol{x})$时} \\ \end{cases} \tag{8.5} \\ & = \begin{cases} \, 0 ,\qquad \text{当$g(\boldsymbol{x})f(\boldsymbol{x})=1$时} \\ \, 1 ,\qquad \text{当$g(\boldsymbol{x}) f(\boldsymbol{x})=-1$时} \\ \end{cases} \tag{8.6} \end{align} ℓ(g(x))​={0,当g(x)=f(x)时1,当g(x)=f(x)时​={0,当g(x)f(x)=1时1,当g(x)f(x)=−1时​​(8.5)(8.6)​
其中,将式(8.5)转化为式(8.6)是由于函数的值域为 { − 1 , + 1 } \{-1,+1\} {−1,+1}。

对于回归预测器 g g g可以定义指数损失函数
ℓ exp ⁡ ( g ( x ) ) = { 1 e , 当 g ( x ) f ( x ) = 1 时 e , 当 g ( x ) f ( x ) = − 1 时 = e − f ( x ) g ( x ) \begin{align} {\ell}_{\exp} (g(\boldsymbol{x})) & = \begin{cases} \, \frac{1}{\mathrm{e}}\, ,\qquad \text{当$g(\boldsymbol{x})f(\boldsymbol{x})=1$时}\notag \\ \, \mathrm{e}\, ,\qquad \text{当$g(\boldsymbol{x}) f(\boldsymbol{x})=-1$时}\notag \\ \end{cases} \\ &=\mathrm{e}^{-f(\boldsymbol{x})g(\boldsymbol{x})} \tag{8.7} \end{align} ℓexp​(g(x))​={e1​,当g(x)f(x)=1时e,当g(x)f(x)=−1时​=e−f(x)g(x)​(8.7)​

显然,式(8.7)的数学性质比式(8.6)要好很多。

上述为预测器 g g g对各样本 x \boldsymbol{x} x而言的损失,它的平均数(数学期望)定义为预测器 g g g的损失,即
ℓ exp ⁡ [ g ] = E x [ ℓ exp ⁡ ( g ( x ) ) ] \begin{align} {\ell}_{\exp} [g]=\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}[{\ell}_{\exp} (g(\boldsymbol{x}))] \tag{8.8} \end{align} ℓexp​[g]=xE​[ℓexp​(g(x))]​(8.8)​
公式中,函数 ℓ exp ⁡ [ g ] {\ell}_{\exp} [g] ℓexp​[g]的自变量是函数 g g g,自变量是函数的函数称为泛函,为示区别于一般函数,用中括号 [ ] [\ ] [ ]表示泛函。

将指数损失用于 H H H,则
ℓ exp ⁡ [ H ] = E x [ ℓ exp ⁡ ( H ( x ) ) ] = E x e − f ( x ) H ( x ) \begin{align} {\ell}_{\exp} [H]=\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}[{\ell}_{\exp} (H(\boldsymbol{x}))] =\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}\,\mathrm{e}^{-f(\boldsymbol{x})H(\boldsymbol{x})} \tag{8.9} \end{align} ℓexp​[H]=xE​[ℓexp​(H(x))]=xE​e−f(x)H(x)​(8.9)​
若显著地标明分布 D \mathcal{D} D,则为【西瓜书式(8.5)】。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:7.11 期望的计算、再谈贝叶斯图络学习
下一篇:8.2 AdaBoost算法(三合一:分布演进、集成投票、权重优选)

更多推荐

(《机器学习》完整版系列)第8章 集成学习——8.1 简单投票法(少数服从多数)

本文发布于:2024-03-04 10:23:08,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1708996.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:完整版   机器   简单   系列   少数服从多数

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!