从优化角度推导主成分分析法(PCA)的数学原理

编程入门行业动态更新时间:2024-10-28 18:29:28

从优化角度推导主成分<a href=https://www.elefans.com/category/jswz/34/1758245.html style= 分析法(PCA)的数学原理"/>

从优化角度推导主成分分析法(PCA)的数学原理

PCA是Principle Component Analysis的简称，它的基本原理是：在保证数据总信息量尽可能大的前提下，将高维数据投影到低维空间内。

记原数据为 x = ( X 1 , X 2 , ⋯ , X p ) ′ x=(X_1,X_2,\cdots,X_p)' x=(X1,X2,⋯,Xp)′，共p维，协方差为 Σ \Sigma Σ（PCA假设数据服从高斯分布）。

投影在数学上表示为 w T x w^Tx wTx，即表示将 x x x投影至 w w w空间内。而数据总信息量一般与方差呈正向关系，所以可以将投影至低维空间数据的总方差最大化定为PCA的目标。

综上，PCA可以建模为优化问题： m a x i m i z e σ 2 maximize ~~ \sigma^2 maximize σ2 其中 σ = 1 N ∑ i = 1 N ( w T x i − w T x ˉ ) 2 \sigma=\frac{1}{N}\sum_{i=1}^N(w^Tx_i-w^T\bar{x})^2 σ=N1∑i=1N(wTxi−wTxˉ)2 表示 N N N个样本在 w T x w^Tx wTx空间中的总方差， x ˉ = 1 N ∑ i = 1 N x i \bar{x}=\frac{1}{N}\sum_{i=1}^Nx_i xˉ=N1∑i=1Nxi 为x的均值。

可以通过矩阵运算化简 σ 2 \sigma^2 σ2：

σ 2 = 1 N ∑ i = 1 N ( w T x i − w T x ˉ ) 2 = 1 N ∑ i = 1 N w T ( x i − x ˉ ) ( x i − x ˉ ) = w T ( 1 N ∑ i = 1 N ( x i − x ˉ ) ( x i − x ˉ ) T ) w = w T Σ w \sigma^2=\frac{1}{N}\sum_{i=1}^N(w^Tx_i-w^T\bar{x})^2\\ =\frac{1}{N}\sum_{i=1}^Nw^T(x_i-\bar{x})(x_i-\bar{x})\\ =w^T(\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T)w\\=w^T\Sigma w σ2=N1i=1∑N(wTxi−wTxˉ)2=N1i=1∑NwT(xi−xˉ)(xi−xˉ)=wT(N1i=1∑N(xi−xˉ)(xi−xˉ)T)w=wTΣw

由于我们只考虑投影的方向而非大小，因此我们可以添加约束 w T w = 1 w^Tw=1 wTw=1来确定结果。

因此，PCA最终建模为：

m a x i m i z e w T Σ w s . t . w T w = 1 maximize ~~ w^T\Sigma w \\ s.t.~~ w^Tw=1 maximize wTΣws.t. wTw=1

通过Lagrange乘子法解决此类有约束的优化问题：

构造Lagrange函数 L = − w T Σ w + λ ( w T w − 1 ) L=-w^T\Sigma w+\lambda (w^Tw-1) L=−wTΣw+λ(wTw−1)
Δ w L = − 2 Σ w + 2 λ w = 0 \Delta_w L=-2\Sigma w+2\lambda w=0 ΔwL=−2Σw+2λw=0
由2得出 Σ w = λ w \Sigma w=\lambda w Σw=λw

可以发现：w为 Σ \Sigma Σ的特征向量，且目标函数 w T Σ w w^T\Sigma w wTΣw可以表示为 w T λ w = λ w T w = λ w^T\lambda w=\lambda w^Tw=\lambda wTλw=λwTw=λ。因此，要达到数据总方差最大的目标，应该选择较大的 λ \lambda λ对应的特征向量 w w w作为投影方向。

Σ \Sigma Σ为 p × p p \times p p×p方阵，有 p p p个特征值和特征向量。 Σ \Sigma Σ最大、次大、第三大、 ⋯ \cdots ⋯、第 p p p大的特征值为 λ 1 , λ 2 , ⋯ , λ p \lambda_1,\lambda_2,\cdots,\lambda_p λ1,λ2,⋯,λp，其对应的特征向量分别为 w 1 , w 2 , ⋯ , w p w_1,w_2,\cdots,w_p w1,w2,⋯,wp。因此，PCA相当于按照信息量(方差)从大到小给出了 p p p个投影方向 w 1 , w 2 , ⋯ , w p w_1,w_2,\cdots,w_p w1,w2,⋯,wp。原数据 x x x在这 p p p个方向上投影得到分量为第一、第二、 ⋯ \cdots ⋯、第p主成分： Z 1 = w 1 T x 、 Z 2 = w 2 T x 、 ⋯ 、 Z p = w p T x Z_1=w_1^Tx、Z_2=w_2^Tx、\cdots、Z_p=w_p^Tx Z1=w1Tx、Z2=w2Tx、⋯、Zp=wpTx。我们可以根据实际情况选择前k个主成分，主成分的选择有百分比截点法、碎石图法等。

更多推荐

从优化角度推导主成分分析法(PCA)的数学原理

本文发布于:2023-06-29 03:40:00，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/938504.html