从优化角度推导主成分分析法(PCA)的数学原理

编程入门 行业动态 更新时间:2024-10-28 18:29:28

从优化角度推导主成分<a href=https://www.elefans.com/category/jswz/34/1758245.html style=分析法(PCA)的数学原理"/>

从优化角度推导主成分分析法(PCA)的数学原理

    PCA是Principle Component Analysis的简称,它的基本原理是:在保证数据总信息量尽可能大的前提下,将高维数据投影到低维空间内。

    记原数据为 x = ( X 1 , X 2 , ⋯ , X p ) ′ x=(X_1,X_2,\cdots,X_p)' x=(X1​,X2​,⋯,Xp​)′,共p维,协方差为 Σ \Sigma Σ(PCA假设数据服从高斯分布)。

    投影在数学上表示为 w T x w^Tx wTx,即表示将 x x x投影至 w w w空间内。而数据总信息量一般与方差呈正向关系,所以可以将投影至低维空间数据的总方差最大化定为PCA的目标。

    综上,PCA可以建模为优化问题: m a x i m i z e σ 2 maximize ~~ \sigma^2 maximize  σ2 其中 σ = 1 N ∑ i = 1 N ( w T x i − w T x ˉ ) 2 \sigma=\frac{1}{N}\sum_{i=1}^N(w^Tx_i-w^T\bar{x})^2 σ=N1​∑i=1N​(wTxi​−wTxˉ)2  表示 N N N个样本在 w T x w^Tx wTx空间中的总方差, x ˉ = 1 N ∑ i = 1 N x i \bar{x}=\frac{1}{N}\sum_{i=1}^Nx_i xˉ=N1​∑i=1N​xi​  为x的均值。

    可以通过矩阵运算化简 σ 2 \sigma^2 σ2:

σ 2 = 1 N ∑ i = 1 N ( w T x i − w T x ˉ ) 2 = 1 N ∑ i = 1 N w T ( x i − x ˉ ) ( x i − x ˉ ) = w T ( 1 N ∑ i = 1 N ( x i − x ˉ ) ( x i − x ˉ ) T ) w = w T Σ w \sigma^2=\frac{1}{N}\sum_{i=1}^N(w^Tx_i-w^T\bar{x})^2\\ =\frac{1}{N}\sum_{i=1}^Nw^T(x_i-\bar{x})(x_i-\bar{x})\\ =w^T(\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T)w\\=w^T\Sigma w σ2=N1​i=1∑N​(wTxi​−wTxˉ)2=N1​i=1∑N​wT(xi​−xˉ)(xi​−xˉ)=wT(N1​i=1∑N​(xi​−xˉ)(xi​−xˉ)T)w=wTΣw

    由于我们只考虑投影的方向而非大小,因此我们可以添加约束 w T w = 1 w^Tw=1 wTw=1来确定结果。

    因此,PCA最终建模为:

m a x i m i z e w T Σ w s . t . w T w = 1 maximize ~~ w^T\Sigma w \\ s.t.~~ w^Tw=1 maximize  wTΣws.t.  wTw=1

    通过Lagrange乘子法解决此类有约束的优化问题:

  1. 构造Lagrange函数 L = − w T Σ w + λ ( w T w − 1 ) L=-w^T\Sigma w+\lambda (w^Tw-1) L=−wTΣw+λ(wTw−1)

  2. Δ w L = − 2 Σ w + 2 λ w = 0 \Delta_w L=-2\Sigma w+2\lambda w=0 Δw​L=−2Σw+2λw=0

  3. 由2得出 Σ w = λ w \Sigma w=\lambda w Σw=λw

    可以发现:w为 Σ \Sigma Σ的特征向量,且目标函数 w T Σ w w^T\Sigma w wTΣw可以表示为 w T λ w = λ w T w = λ w^T\lambda w=\lambda w^Tw=\lambda wTλw=λwTw=λ。因此,要达到数据总方差最大的目标,应该选择较大的 λ \lambda λ对应的特征向量 w w w作为投影方向

     Σ \Sigma Σ为 p × p p \times p p×p方阵,有 p p p个特征值和特征向量。 Σ \Sigma Σ最大、次大、第三大、 ⋯ \cdots ⋯、第 p p p大的特征值为 λ 1 , λ 2 , ⋯ , λ p \lambda_1,\lambda_2,\cdots,\lambda_p λ1​,λ2​,⋯,λp​,其对应的特征向量分别为 w 1 , w 2 , ⋯ , w p w_1,w_2,\cdots,w_p w1​,w2​,⋯,wp​。因此,PCA相当于按照信息量(方差)从大到小给出了 p p p个投影方向 w 1 , w 2 , ⋯ , w p w_1,w_2,\cdots,w_p w1​,w2​,⋯,wp​。原数据 x x x在这 p p p个方向上投影得到分量为第一、第二、 ⋯ \cdots ⋯、第p主成分: Z 1 = w 1 T x 、 Z 2 = w 2 T x 、 ⋯ 、 Z p = w p T x Z_1=w_1^Tx、Z_2=w_2^Tx、\cdots、Z_p=w_p^Tx Z1​=w1T​x、Z2​=w2T​x、⋯、Zp​=wpT​x。我们可以根据实际情况选择前k个主成分,主成分的选择有百分比截点法、碎石图法等。

更多推荐

从优化角度推导主成分分析法(PCA)的数学原理

本文发布于:2023-06-29 03:40:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/938504.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:分析法   成分   角度   原理   数学

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!