完整版系列)第8章 集成学习——8.1 简单投票法(少数服从多数)"/>
(《机器学习》完整版系列)第8章 集成学习——8.1 简单投票法(少数服从多数)
简单投票法:以多个分类器(称为基学习器)的投票结果来作为预测。
简单投票法
设二分类问题 y ∈ { − 1 , + 1 } y \in \{-1,+1\} y∈{−1,+1},有 T T T个分类器(称为基学习器): h i , ( i = 1 , 2 , ⋯ , T ) h_i, (i=1,2,\cdots,T) hi,(i=1,2,⋯,T)。 对于样本 x \boldsymbol{x} x,若超过半数的 h i h_i hi预测它为 + 1 +1 +1,则定义集成分类器 h h h预测它为 + 1 +1 +1,否则为 − 1 -1 −1。 这就是简单投票法(不妨设 T T T为奇数)。 注意到 + 1 +1 +1与 − 1 -1 −1加法相消的特点,则
h ( x ) = s g n ( ∑ i = 1 T h i ( x ) ) \begin{align} h(\boldsymbol{x})=\mathrm{sgn} (\sum_{i=1}^Th_i(\boldsymbol{x})) \tag{8.1} \end{align} h(x)=sgn(i=1∑Thi(x))(8.1)
记
H ( x ) = ∑ i = 1 T h i ( x ) \begin{align} H(\boldsymbol{x})=\sum_{i=1}^Th_i(\boldsymbol{x}) \tag{8.2} \end{align} H(x)=i=1∑Thi(x)(8.2)
则式(8.1)的分类预测转化为式(8.2)的回归预测。
上述可视为对所有基学习器 h i ( x ) h_i(\boldsymbol{x}) hi(x)一视同仁,现在我们希望差别对待,即对于分类效果好的基分类器给予更大的权重,这样就有了如下形式:
H ( x ) = ∑ i = 1 T α i h i ( x ) h ( x ) = s g n H ( x ) \begin{align} & H(\boldsymbol{x})=\sum_{i=1}^T{\alpha }_ih_i(\boldsymbol{x}) \tag{8.3} \\ & h(\boldsymbol{x})=\mathrm{sgn}H(\boldsymbol{x}) \tag{8.4} \end{align} H(x)=i=1∑Tαihi(x)h(x)=sgnH(x)(8.3)(8.4)
设样本 x \boldsymbol{x} x的真实值为 f ( x ) f(\boldsymbol{x}) f(x),我们再来构造一个适当的损失函数。
对于分类器 g g g定义损失函数为
ℓ ( g ( x ) ) = { 0 , 当 g ( x ) = f ( x ) 时 1 , 当 g ( x ) ≠ f ( x ) 时 = { 0 , 当 g ( x ) f ( x ) = 1 时 1 , 当 g ( x ) f ( x ) = − 1 时 \begin{align} {\ell} (g(\boldsymbol{x})) & = \begin{cases} \, 0 ,\qquad \text{当$g(\boldsymbol{x})=f(\boldsymbol{x})$时} \\ \, 1 ,\qquad \text{当$g(\boldsymbol{x})\neq f(\boldsymbol{x})$时} \\ \end{cases} \tag{8.5} \\ & = \begin{cases} \, 0 ,\qquad \text{当$g(\boldsymbol{x})f(\boldsymbol{x})=1$时} \\ \, 1 ,\qquad \text{当$g(\boldsymbol{x}) f(\boldsymbol{x})=-1$时} \\ \end{cases} \tag{8.6} \end{align} ℓ(g(x))={0,当g(x)=f(x)时1,当g(x)=f(x)时={0,当g(x)f(x)=1时1,当g(x)f(x)=−1时(8.5)(8.6)
其中,将式(8.5)转化为式(8.6)是由于函数的值域为 { − 1 , + 1 } \{-1,+1\} {−1,+1}。
对于回归预测器 g g g可以定义指数损失函数
ℓ exp ( g ( x ) ) = { 1 e , 当 g ( x ) f ( x ) = 1 时 e , 当 g ( x ) f ( x ) = − 1 时 = e − f ( x ) g ( x ) \begin{align} {\ell}_{\exp} (g(\boldsymbol{x})) & = \begin{cases} \, \frac{1}{\mathrm{e}}\, ,\qquad \text{当$g(\boldsymbol{x})f(\boldsymbol{x})=1$时}\notag \\ \, \mathrm{e}\, ,\qquad \text{当$g(\boldsymbol{x}) f(\boldsymbol{x})=-1$时}\notag \\ \end{cases} \\ &=\mathrm{e}^{-f(\boldsymbol{x})g(\boldsymbol{x})} \tag{8.7} \end{align} ℓexp(g(x))={e1,当g(x)f(x)=1时e,当g(x)f(x)=−1时=e−f(x)g(x)(8.7)
显然,式(8.7)的数学性质比式(8.6)要好很多。
上述为预测器 g g g对各样本 x \boldsymbol{x} x而言的损失,它的平均数(数学期望)定义为预测器 g g g的损失,即
ℓ exp [ g ] = E x [ ℓ exp ( g ( x ) ) ] \begin{align} {\ell}_{\exp} [g]=\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}[{\ell}_{\exp} (g(\boldsymbol{x}))] \tag{8.8} \end{align} ℓexp[g]=xE[ℓexp(g(x))](8.8)
公式中,函数 ℓ exp [ g ] {\ell}_{\exp} [g] ℓexp[g]的自变量是函数 g g g,自变量是函数的函数称为泛函,为示区别于一般函数,用中括号 [ ] [\ ] [ ]表示泛函。
将指数损失用于 H H H,则
ℓ exp [ H ] = E x [ ℓ exp ( H ( x ) ) ] = E x e − f ( x ) H ( x ) \begin{align} {\ell}_{\exp} [H]=\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}[{\ell}_{\exp} (H(\boldsymbol{x}))] =\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}\,\mathrm{e}^{-f(\boldsymbol{x})H(\boldsymbol{x})} \tag{8.9} \end{align} ℓexp[H]=xE[ℓexp(H(x))]=xEe−f(x)H(x)(8.9)
若显著地标明分布 D \mathcal{D} D,则为【西瓜书式(8.5)】。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:7.11 期望的计算、再谈贝叶斯图络学习
下一篇:8.2 AdaBoost算法(三合一:分布演进、集成投票、权重优选)
更多推荐
(《机器学习》完整版系列)第8章 集成学习——8.1 简单投票法(少数服从多数)
发布评论