分析法(PCA)的数学原理"/>
从优化角度推导主成分分析法(PCA)的数学原理
PCA是Principle Component Analysis的简称,它的基本原理是:在保证数据总信息量尽可能大的前提下,将高维数据投影到低维空间内。
记原数据为 x = ( X 1 , X 2 , ⋯ , X p ) ′ x=(X_1,X_2,\cdots,X_p)' x=(X1,X2,⋯,Xp)′,共p维,协方差为 Σ \Sigma Σ(PCA假设数据服从高斯分布)。
投影在数学上表示为 w T x w^Tx wTx,即表示将 x x x投影至 w w w空间内。而数据总信息量一般与方差呈正向关系,所以可以将投影至低维空间数据的总方差最大化定为PCA的目标。
综上,PCA可以建模为优化问题: m a x i m i z e σ 2 maximize ~~ \sigma^2 maximize σ2 其中 σ = 1 N ∑ i = 1 N ( w T x i − w T x ˉ ) 2 \sigma=\frac{1}{N}\sum_{i=1}^N(w^Tx_i-w^T\bar{x})^2 σ=N1∑i=1N(wTxi−wTxˉ)2 表示 N N N个样本在 w T x w^Tx wTx空间中的总方差, x ˉ = 1 N ∑ i = 1 N x i \bar{x}=\frac{1}{N}\sum_{i=1}^Nx_i xˉ=N1∑i=1Nxi 为x的均值。
可以通过矩阵运算化简 σ 2 \sigma^2 σ2:
σ 2 = 1 N ∑ i = 1 N ( w T x i − w T x ˉ ) 2 = 1 N ∑ i = 1 N w T ( x i − x ˉ ) ( x i − x ˉ ) = w T ( 1 N ∑ i = 1 N ( x i − x ˉ ) ( x i − x ˉ ) T ) w = w T Σ w \sigma^2=\frac{1}{N}\sum_{i=1}^N(w^Tx_i-w^T\bar{x})^2\\ =\frac{1}{N}\sum_{i=1}^Nw^T(x_i-\bar{x})(x_i-\bar{x})\\ =w^T(\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T)w\\=w^T\Sigma w σ2=N1i=1∑N(wTxi−wTxˉ)2=N1i=1∑NwT(xi−xˉ)(xi−xˉ)=wT(N1i=1∑N(xi−xˉ)(xi−xˉ)T)w=wTΣw
由于我们只考虑投影的方向而非大小,因此我们可以添加约束 w T w = 1 w^Tw=1 wTw=1来确定结果。
因此,PCA最终建模为:
m a x i m i z e w T Σ w s . t . w T w = 1 maximize ~~ w^T\Sigma w \\ s.t.~~ w^Tw=1 maximize wTΣws.t. wTw=1
通过Lagrange乘子法解决此类有约束的优化问题:
-
构造Lagrange函数 L = − w T Σ w + λ ( w T w − 1 ) L=-w^T\Sigma w+\lambda (w^Tw-1) L=−wTΣw+λ(wTw−1)
-
Δ w L = − 2 Σ w + 2 λ w = 0 \Delta_w L=-2\Sigma w+2\lambda w=0 ΔwL=−2Σw+2λw=0
-
由2得出 Σ w = λ w \Sigma w=\lambda w Σw=λw
可以发现:w为 Σ \Sigma Σ的特征向量,且目标函数 w T Σ w w^T\Sigma w wTΣw可以表示为 w T λ w = λ w T w = λ w^T\lambda w=\lambda w^Tw=\lambda wTλw=λwTw=λ。因此,要达到数据总方差最大的目标,应该选择较大的 λ \lambda λ对应的特征向量 w w w作为投影方向。
Σ \Sigma Σ为 p × p p \times p p×p方阵,有 p p p个特征值和特征向量。 Σ \Sigma Σ最大、次大、第三大、 ⋯ \cdots ⋯、第 p p p大的特征值为 λ 1 , λ 2 , ⋯ , λ p \lambda_1,\lambda_2,\cdots,\lambda_p λ1,λ2,⋯,λp,其对应的特征向量分别为 w 1 , w 2 , ⋯ , w p w_1,w_2,\cdots,w_p w1,w2,⋯,wp。因此,PCA相当于按照信息量(方差)从大到小给出了 p p p个投影方向 w 1 , w 2 , ⋯ , w p w_1,w_2,\cdots,w_p w1,w2,⋯,wp。原数据 x x x在这 p p p个方向上投影得到分量为第一、第二、 ⋯ \cdots ⋯、第p主成分: Z 1 = w 1 T x 、 Z 2 = w 2 T x 、 ⋯ 、 Z p = w p T x Z_1=w_1^Tx、Z_2=w_2^Tx、\cdots、Z_p=w_p^Tx Z1=w1Tx、Z2=w2Tx、⋯、Zp=wpTx。我们可以根据实际情况选择前k个主成分,主成分的选择有百分比截点法、碎石图法等。
更多推荐
从优化角度推导主成分分析法(PCA)的数学原理
发布评论