主成分分析

为什么要降维？

在原始的高维空间中，包含冗余信息和噪声信息，会在实际应用中引入误差，影响准确率；而降维可以提取数据内部的本质结构，减少冗余信息和噪声信息造成的误差，提高应用中的精度。

噪声

冗余

PCA思想

PCA顾名思义，就是找出数据里最主要的方面，用数据里最主要的方面来代替原始数据。

假设有$m$个数据样本$\boldsymbol{X}=\{\boldsymbol{x_1},\boldsymbol{x_2},…,\boldsymbol{x_m}\}$，每个样本是$n$维的$\boldsymbol{x_1}=(x_{i1},x_{i2},…,x_{in})$。我们希望将这$m$个数据的维度从$n$维降到$n’$维，希望这个$m$个$n’$维的数据集尽可能代表原数据集。我们知道数据从$n$维降到$n’$维肯定会有损失，但是我们希望损失尽可能的小。那么如何让这$n’$维的数据尽可能表示原来的数据呢？

现在我们的样本是再$n$维的空间里，希望投影到一个$n’$维的超平面。这样就实现了降维。如果存在这样的超平面，那么它大概具有这样的性质：

最近重构性：样本点到这个超平面的距离都足够近；
最大可分性：样本点在这个超平面上的投影尽可能分开。

基于最近重构性和最大可分性，分别得到主成分分析的两种等价推导。

基于最近重构性的PCA推导

假定样本进行了中心化，即$\sum_i\boldsymbol{x}_i=\boldsymbol{0}$;

假设投影变换后得到的新坐标系为$\{\boldsymbol{w}_1,\boldsymbol{w}_2,…,\boldsymbol{w}_d\}$，其中$\boldsymbol{w}_i$是标准正交基向量,即$\boldsymbol{w}_i^T\boldsymbol{w}_j=\delta_{ij}$;

那样本$\boldsymbol{x}_i$在另一个坐标系下的坐标为$(z_{i1}, z_{i2},…,z_{id})$，其中$z_{ij}=\boldsymbol{w}_j^T\boldsymbol{x}_i$是$\boldsymbol{x}_i$在低维坐标系下第$j$维的坐标。即$\boldsymbol{x}_i=\sum_{j=0}^dz_{ij}\boldsymbol{w}_j$。

若丢弃新坐标系中的部分坐标，将维度讲到$d’<d$，则$\boldsymbol{x}_i$的投影变为$\boldsymbol{z}_i = (z_{i1}, z_{i2},…,z_{id})$，再用$\boldsymbol{z}_i$来重构$\boldsymbol{x}_i$，则会有$\hat{\boldsymbol{x}}_i=\sum_{j=0}^{d’}z_{ij}\boldsymbol{w}_j$。

我们的目标是样本点到超平面的距离都足够近。也就是样本点$\boldsymbol{x}_i$到其在$d’$维子空间的超平面的投影点$\hat{\boldsymbol{x}}_i$的距离足够近：

$\min\sum_{i=1}^{m}||\hat{\boldsymbol{x}}_i-\boldsymbol{x}_i||^2$

在进行推导之前，先指明几个关系:

$\boldsymbol{W} = \{\boldsymbol{w}_1,\boldsymbol{w}_2,…,\boldsymbol{w}_d\}$，而我们取前$d’$个设为$\boldsymbol{W}_{d’} = \{\boldsymbol{w}_1,\boldsymbol{w}_2,…,\boldsymbol{w}_{d’}\}$。$\boldsymbol{W}_{d’}$中每个列向量是一个标准正交基，所以有$\boldsymbol{W}_{d’}^T\boldsymbol{W}_{d’}=\boldsymbol{I}$，但$\boldsymbol{W}_{d’}\boldsymbol{W}_{d’}^T\neq\boldsymbol{I}$.

规定了$\boldsymbol{W}_{d’}$，则$\boldsymbol{z}_i=\boldsymbol{W}_{d’}^T\boldsymbol{x}_i$，$\hat{\boldsymbol{x}}_i=\boldsymbol{W}_{d’}\boldsymbol{z}_i$.

最小化上式等同于

$\underset{\boldsymbol{W}_{d'}}{\arg\min}-tr(\boldsymbol{W}_{d'}^T\boldsymbol{X}\boldsymbol{X}^T\boldsymbol{W}_{d'})$ $s.t.\ \boldsymbol{W}_{d'}^T\boldsymbol{W}_{d'}=\boldsymbol{I}$

这就是主成分分析的优化目标，可用拉格朗日乘子法求解。

拉格朗日函数

$L(W,\lambda)=-tr(\boldsymbol{W}^T\boldsymbol{X}\boldsymbol{X}^T\boldsymbol{W}+\lambda(\boldsymbol{W}^T\boldsymbol{W}-\boldsymbol{I}))$

对$\boldsymbol{W}求导有$

$\frac{\partial{L}}{\partial{\boldsymbol{W}}}=-\boldsymbol{X}\boldsymbol{X}^T\boldsymbol{W}+\lambda\boldsymbol{W}$

即

$\boldsymbol{X}\boldsymbol{X}^T\boldsymbol{W}=\lambda\boldsymbol{W}$

于是，只需要对协方差矩阵$\boldsymbol{X}\boldsymbol{X}^T$进行特征值分解，将求得的特征值排序：$\lambda_1\geq\lambda_2\geq…\geq\lambda_{n’}$，取前$n’$个特征值对应的特征向量构成$\boldsymbol{W}^*=(\boldsymbol{w}_1,\boldsymbol{w}_2,…,\boldsymbol{w}_{n’})$.这就是主成分分析的解。

基于最近重构性的PCA推导

最大可分性是希望样本点的投影能尽可能分开，则应该是投影后的样本点方差最大化。

样本点$\boldsymbol{x}_i$在新空间中超平面上的投影为$\boldsymbol{W}^T\boldsymbol{x}_i$，投影后的样本方差为$\sum_i\boldsymbol{W}^T\boldsymbol{x}_i\boldsymbol{x}_i^T\boldsymbol{W}$，于是优化目标可写为

$\underset{W}{\max}\ tr(\boldsymbol{W}^T\boldsymbol{X}\boldsymbol{X}^T\boldsymbol{W})$ $s.t.\ \boldsymbol{W}^T\boldsymbol{W}=\boldsymbol{I}$