机器学习复习13-PCA

时间 2021-01-19 标签机器学习算法 python PCA pca降维

原文链接：https://mp.weixin.qq.com/s/Uj9AFbyFRO6jIBoC3Gy8nA

PCA是无监督学习中的最常见的数据降维方法，在实际问题特征很多的情况，PCA 通常会预处理来减少特征个数。这里对原文内容进行部分调整和笔记记录，方便自己复习理解。

1. 场景实例过程描述

将这 2 维特征实例化为房间面积和房间个数，它们通常成正比关系。假设我们找到一条向上的直线，将这 2 维特征投影到该直线上，如下图：
特征房间面积和房间个数有些重复了，因此把它们降到 1 维也没有丢失太多信息，如下图：

2. 数学推导

场景有了，直觉也有了，那么我们该看看 PCA 背后的数学原理了。其实非常简单，你只用知道均值、方差、协方差这三个基本统计概念就行了。

2.1 均值

均值不要太简单，不解释。

2.2 方差

接着来看两组数据，它们具有相同的方差 (投影到 x 轴和 y 轴)，但是这两组数据的模式非常不同，一个趋势向下，一个趋势向上。

光靠方差是不能准确描述不同的数据模式了（引入协方差的动机），是时候该介绍协方差了。

2.3 协方差

2.4 协方差矩阵

2.5 线性转换

我们知道矩阵其实就是线性转换，那么：
矩阵 × 向量 1 = 向量 2
就是把向量 1 线性转换成向量 2。

圆形被该矩阵转换成向上的椭圆形。

在以上线性转换中，有两个非常重要的向量，它们方向不变，长度改变。这样的向量称为特征向量，对应向量的长度称为特征值。如下图所示：

特征向量线性变换前后方向不变，长度改变。

等式左边是用矩阵相乘将向量做了线性转化，而等式右边是用常数相乘将向量做了放缩 (没改变向量的方向)。

2.6 PCA操作

PCA 将数据投影到特征向量上，而特征值代表数据投影后的方差大小。（投影的目标特征向量叫做主成分）

降维操作可是看成是选择特征值比较大的几个主成分作为特征。如上图，我们只保留了第一个主成分 (特征值 11)，而去除了第二个主成分 (特征值 1)。

2 维数据就变成了 1 维数据。第二个主成分的特征值 1 比第一个主成分特征值 11 小很多，那么将其去除不会丢失太多信息的。从下面两图也可以看出：

3. 总结

对于NLP算法工程师来说，知道这些原理就够了。 对其机器学习算法工程师或者其他算法工程师，可能还需要继续深入了解更多trick等等。