主成分分析

为什么要降维?

在原始的高维空间中,包含冗余信息和噪声信息,会在实际应用中引入误差,影响准确率;而降维可以提取数据内部的本质结构,减少冗余信息和噪声信息造成的误差,提高应用中的精度。

  • 噪声

  • 冗余

PCA思想

PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。

假设有$m$个数据样本$\boldsymbol{X}=\{\boldsymbol{x_1},\boldsymbol{x_2},…,\boldsymbol{x_m}\}$,每个样本是$n$维的$\boldsymbol{x_1}=(x_{i1},x_{i2},…,x_{in})$。我们希望将这$m$个数据的维度从$n$维降到$n’$维,希望这个$m$个$n’$维的数据集尽可能代表原数据集。我们知道数据从$n$维降到$n’$维肯定会有损失,但是我们希望损失尽可能的小。那么如何让这$n’$维的数据尽可能表示原来的数据呢?

现在我们的样本是再$n$维的空间里,希望投影到一个$n’$维的超平面。这样就实现了降维。如果存在这样的超平面,那么它大概具有这样的性质:

  • 最近重构性:样本点到这个超平面的距离都足够近;
  • 最大可分性:样本点在这个超平面上的投影尽可能分开。

基于最近重构性和最大可分性,分别得到主成分分析的两种等价推导。

基于最近重构性的PCA推导

假定样本进行了中心化,即$\sum_i\boldsymbol{x}_i=\boldsymbol{0}$;

假设投影变换后得到的新坐标系为$\{\boldsymbol{w}_1,\boldsymbol{w}_2,…,\boldsymbol{w}_d\}$,其中$\boldsymbol{w}_i$是标准正交基向量,即$\boldsymbol{w}_i^T\boldsymbol{w}_j=\delta_{ij}$;

那样本$\boldsymbol{x}_i$在另一个坐标系下的坐标为$(z_{i1}, z_{i2},…,z_{id})$,其中$z_{ij}=\boldsymbol{w}_j^T\boldsymbol{x}_i$是$\boldsymbol{x}_i$在低维坐标系下第$j$维的坐标。即$\boldsymbol{x}_i=\sum_{j=0}^dz_{ij}\boldsymbol{w}_j$。

若丢弃新坐标系中的部分坐标,将维度讲到$d’<d$,则$\boldsymbol{x}_i$的投影变为$\boldsymbol{z}_i = (z_{i1}, z_{i2},…,z_{id})$,再用$\boldsymbol{z}_i$来重构$\boldsymbol{x}_i$,则会有$\hat{\boldsymbol{x}}_i=\sum_{j=0}^{d’}z_{ij}\boldsymbol{w}_j$。

我们的目标是样本点到超平面的距离都足够近。也就是样本点$\boldsymbol{x}_i$到其在$d’$维子空间的超平面的投影点$\hat{\boldsymbol{x}}_i$的距离足够近:

在进行推导之前,先指明几个关系:

$\boldsymbol{W} = \{\boldsymbol{w}_1,\boldsymbol{w}_2,…,\boldsymbol{w}_d\}$,而我们取前$d’$个设为$\boldsymbol{W}_{d’} = \{\boldsymbol{w}_1,\boldsymbol{w}_2,…,\boldsymbol{w}_{d’}\}$。$\boldsymbol{W}_{d’}$中每个列向量是一个标准正交基,所以有$\boldsymbol{W}_{d’}^T\boldsymbol{W}_{d’}=\boldsymbol{I}$,但$\boldsymbol{W}_{d’}\boldsymbol{W}_{d’}^T\neq\boldsymbol{I}$.

规定了$\boldsymbol{W}_{d’}$,则$\boldsymbol{z}_i=\boldsymbol{W}_{d’}^T\boldsymbol{x}_i$,$\hat{\boldsymbol{x}}_i=\boldsymbol{W}_{d’}\boldsymbol{z}_i$.

最小化上式等同于

这就是主成分分析的优化目标,可用拉格朗日乘子法求解。

拉格朗日函数

对$\boldsymbol{W}求导有$

于是,只需要对协方差矩阵$\boldsymbol{X}\boldsymbol{X}^T$进行特征值分解,将求得的特征值排序:$\lambda_1\geq\lambda_2\geq…\geq\lambda_{n’}$,取前$n’$个特征值对应的特征向量构成$\boldsymbol{W}^*=(\boldsymbol{w}_1,\boldsymbol{w}_2,…,\boldsymbol{w}_{n’})$.这就是主成分分析的解。

基于最近重构性的PCA推导

最大可分性是希望样本点的投影能尽可能分开,则应该是投影后的样本点方差最大化。

样本点$\boldsymbol{x}_i$在新空间中超平面上的投影为$\boldsymbol{W}^T\boldsymbol{x}_i$,投影后的样本方差为$\sum_i\boldsymbol{W}^T\boldsymbol{x}_i\boldsymbol{x}_i^T\boldsymbol{W}$,于是优化目标可写为

-------------The End-------------