（《机器学习》完整版系列）第8章集成学习——8.1 简单投票法（少数服从多数）

编程入门行业动态更新时间:2024-10-23 20:16:05

（《机器学习》<a href=https://www.elefans.com/category/jswz/34/1770030.html style= 完整版系列）第8章集成学习——8.1 简单投票法（少数服从多数）"/>

（《机器学习》完整版系列）第8章集成学习——8.1 简单投票法（少数服从多数）

简单投票法：以多个分类器（称为基学习器）的投票结果来作为预测。

简单投票法

设二分类问题 y ∈ { − 1 , + 1 } y \in \{-1,+1\} y∈{−1,+1}，有 T T T个分类器（称为基学习器）： h i , ( i = 1 , 2 , ⋯ , T ) h_i, (i=1,2,\cdots,T) hi,(i=1,2,⋯,T)。对于样本 x \boldsymbol{x} x，若超过半数的 h i h_i hi预测它为 + 1 +1 +1，则定义集成分类器 h h h预测它为 + 1 +1 +1，否则为 − 1 -1 −1。这就是简单投票法（不妨设 T T T为奇数）。注意到 + 1 +1 +1与 − 1 -1 −1加法相消的特点，则
h ( x ) = s g n ( ∑ i = 1 T h i ( x ) ) \begin{align} h(\boldsymbol{x})=\mathrm{sgn} (\sum_{i=1}^Th_i(\boldsymbol{x})) \tag{8.1} \end{align} h(x)=sgn(i=1∑Thi(x))(8.1)
记
H ( x ) = ∑ i = 1 T h i ( x ) \begin{align} H(\boldsymbol{x})=\sum_{i=1}^Th_i(\boldsymbol{x}) \tag{8.2} \end{align} H(x)=i=1∑Thi(x)(8.2)
则式(8.1)的分类预测转化为式(8.2)的回归预测。

上述可视为对所有基学习器 h i ( x ) h_i(\boldsymbol{x}) hi(x)一视同仁，现在我们希望差别对待，即对于分类效果好的基分类器给予更大的权重，这样就有了如下形式：
H ( x ) = ∑ i = 1 T α i h i ( x ) h ( x ) = s g n H ( x ) \begin{align} & H(\boldsymbol{x})=\sum_{i=1}^T{\alpha }_ih_i(\boldsymbol{x}) \tag{8.3} \\ & h(\boldsymbol{x})=\mathrm{sgn}H(\boldsymbol{x}) \tag{8.4} \end{align} H(x)=i=1∑Tαihi(x)h(x)=sgnH(x)(8.3)(8.4)

设样本 x \boldsymbol{x} x的真实值为 f ( x ) f(\boldsymbol{x}) f(x)，我们再来构造一个适当的损失函数。

对于分类器 g g g定义损失函数为
ℓ ( g ( x ) ) = { 0 , 当 g ( x ) = f ( x ) 时 1 , 当 g ( x ) ≠ f ( x ) 时 = { 0 , 当 g ( x ) f ( x ) = 1 时 1 , 当 g ( x ) f ( x ) = − 1 时 \begin{align} {\ell} (g(\boldsymbol{x})) & = \begin{cases} \, 0 ,\qquad \text{当$g(\boldsymbol{x})=f(\boldsymbol{x})$时} \\ \, 1 ,\qquad \text{当$g(\boldsymbol{x})\neq f(\boldsymbol{x})$时} \\ \end{cases} \tag{8.5} \\ & = \begin{cases} \, 0 ,\qquad \text{当$g(\boldsymbol{x})f(\boldsymbol{x})=1$时} \\ \, 1 ,\qquad \text{当$g(\boldsymbol{x}) f(\boldsymbol{x})=-1$时} \\ \end{cases} \tag{8.6} \end{align} ℓ(g(x))={0,当g(x)=f(x)时1,当g(x)=f(x)时={0,当g(x)f(x)=1时1,当g(x)f(x)=−1时(8.5)(8.6)
其中，将式(8.5)转化为式(8.6)是由于函数的值域为 { − 1 , + 1 } \{-1,+1\} {−1,+1}。

对于回归预测器 g g g可以定义指数损失函数
ℓ exp ⁡ ( g ( x ) ) = { 1 e , 当 g ( x ) f ( x ) = 1 时 e , 当 g ( x ) f ( x ) = − 1 时 = e − f ( x ) g ( x ) \begin{align} {\ell}_{\exp} (g(\boldsymbol{x})) & = \begin{cases} \, \frac{1}{\mathrm{e}}\, ,\qquad \text{当$g(\boldsymbol{x})f(\boldsymbol{x})=1$时}\notag \\ \, \mathrm{e}\, ,\qquad \text{当$g(\boldsymbol{x}) f(\boldsymbol{x})=-1$时}\notag \\ \end{cases} \\ &=\mathrm{e}^{-f(\boldsymbol{x})g(\boldsymbol{x})} \tag{8.7} \end{align} ℓexp(g(x))={e1,当g(x)f(x)=1时e,当g(x)f(x)=−1时=e−f(x)g(x)(8.7)

显然，式(8.7)的数学性质比式(8.6)要好很多。

上述为预测器 g g g对各样本 x \boldsymbol{x} x而言的损失，它的平均数（数学期望）定义为预测器 g g g的损失，即
ℓ exp ⁡ [ g ] = E x [ ℓ exp ⁡ ( g ( x ) ) ] \begin{align} {\ell}_{\exp} [g]=\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}[{\ell}_{\exp} (g(\boldsymbol{x}))] \tag{8.8} \end{align} ℓexp[g]=xE[ℓexp(g(x))](8.8)
公式中，函数 ℓ exp ⁡ [ g ] {\ell}_{\exp} [g] ℓexp[g]的自变量是函数 g g g，自变量是函数的函数称为泛函，为示区别于一般函数，用中括号 [ ] [\ ] [ ]表示泛函。

将指数损失用于 H H H，则
ℓ exp ⁡ [ H ] = E x [ ℓ exp ⁡ ( H ( x ) ) ] = E x e − f ( x ) H ( x ) \begin{align} {\ell}_{\exp} [H]=\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}[{\ell}_{\exp} (H(\boldsymbol{x}))] =\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}\,\mathrm{e}^{-f(\boldsymbol{x})H(\boldsymbol{x})} \tag{8.9} \end{align} ℓexp[H]=xE[ℓexp(H(x))]=xEe−f(x)H(x)(8.9)
若显著地标明分布 D \mathcal{D} D，则为【西瓜书式(8.5)】。

本文为原创，您可以：