机器学习复习13-PCA

原文链接:https://mp.weixin.qq.com/s/Uj9AFbyFRO6jIBoC3Gy8nA


PCA是无监督学习中的最常见的数据降维方法,在实际问题特征很多的情况,PCA 通常会预处理来减少特征个数。这里对原文内容进行部分调整和笔记记录,方便自己复习理解。

1. 场景实例过程描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
将这 2 维特征实例化为房间面积和房间个数,它们通常成正比关系。假设我们找到一条向上的直线,将这 2 维特征投影到该直线上,如下图:在这里插入图片描述
特征房间面积和房间个数有些重复了,因此把它们降到 1 维也没有丢失太多信息,如下图:
在这里插入图片描述

2. 数学推导

场景有了,直觉也有了,那么我们该看看 PCA 背后的数学原理了。其实非常简单,你只用知道均值、方差、协方差这三个基本统计概念就行了。

2.1 均值

均值不要太简单,不解释。

2.2 方差

在这里插入图片描述
接着来看两组数据,它们具有相同的方差 (投影到 x 轴和 y 轴),但是这两组数据的模式非常不同,一个趋势向下,一个趋势向上。
在这里插入图片描述
光靠方差是不能准确描述不同的数据模式了(引入协方差的动机),是时候该介绍协方差了。

2.3 协方差

在这里插入图片描述

2.4 协方差矩阵

在这里插入图片描述
在这里插入图片描述

2.5 线性转换

我们知道矩阵其实就是线性转换,那么:
矩阵 × 向量 1 = 向量 2
就是把向量 1 线性转换成向量 2。

在这里插入图片描述
圆形被该矩阵转换成向上的椭圆形。

以上线性转换中,有两个非常重要的向量,它们方向不变,长度改变。这样的向量称为特征向量,对应向量的长度称为特征值。如下图所示:
在这里插入图片描述
特征向量线性变换前后方向不变,长度改变。
在这里插入图片描述
等式左边是用矩阵相乘将向量做了线性转化,而等式右边是用常数相乘将向量做了放缩 (没改变向量的方向)。

2.6 PCA操作

PCA 将数据投影到特征向量上,而特征值代表数据投影后的方差大小。(投影的目标特征向量叫做主成分)
在这里插入图片描述
降维操作可是看成是选择特征值比较大的几个主成分作为特征。如上图,我们只保留了第一个主成分 (特征值 11),而去除了第二个主成分 (特征值 1)。

2 维数据就变成了 1 维数据。第二个主成分的特征值 1 比第一个主成分特征值 11 小很多,那么将其去除不会丢失太多信息的。 从下面两图也可以看出:
在这里插入图片描述

3. 总结

在这里插入图片描述
在这里插入图片描述
对于NLP算法工程师来说,知道这些原理就够了。 对其机器学习算法工程师或者其他算法工程师,可能还需要继续深入了解更多trick等等。