降维技术

时间 2021-05-27 标签知识点总结机器学习降维 PCA LDA ISOMAP LLE

1、背景

高维数据的维数灾难

在高维情况下出现的数据稀疏，计算距离困难情况下，是所有机器学习都要面临的严峻问题，称为维数灾难。

当一个维度上的数据相对较多时，增加维度会拉伸该维度上的点，使它们更加分开，导致更加稀疏，由于等距离，距离测量变得毫无意义。

2、降维技术概述

数据降维，也称维数约简（Dimensionality Reduction），即降低数据的维数，将原始高维特征空间中的点向一个低维空间投影，新的空间维度低于原始特征空间，所以维数减少了。

在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。

2.1 降维具有如下一些优点：

1) 使得数据集更易使用。
2) 降低算法的计算开销。
3) 去除噪声。
4) 使得结果容易理解。

2.2 解决尾数灾难的两个方法：

特征选择，参考上一篇文章：http://www.noobyard.com/article/p-cwluveqw-nc.html
特征降维

2.3 降维效果的评估

比较降维前后学习器的性能；
降维到二维或者三维，可通过可视化技术来直观判断降维效果，增加可解释性；

3、无监督线性降维

3.1 PCA

PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。

具体原理请参考另一篇文章：http://www.noobyard.com/article/p-pqansghj-qd.html

3.2 SVD

具体原理请参考另一篇文章：http://www.noobyard.com/article/p-wruusfpo-tb.html

3.3 PCA在人脸识别中的应用:Eigenface

先用PCA降维，再利用最近邻分类器判断

参考链接：http://www.noobyard.com/article/p-ufcaaemx-dc.html

4、有监督线性降维

4.1 LDA

具体原理请参考另一篇文章：http://www.noobyard.com/article/p-vfsjqsmp-py.html

4.2 PCA在人脸识别中的应用:FisherFace

FisherFace 是一种基于LDA(全称Linear Discriminant Analysis, 线性判别分析)的人脸识别算法，而LDA是Ronald Fisher于193年提出来的，所以LDA也被称作是Fisher Discriminant Analysis, 也正因为如此，该人脸识别算法被称为FisherFace。参考链接：http://www.noobyard.com/article/p-ufcaaemx-dc.html

5、非线性降维

流形学习

非线性降维假设：数据在高维空间的一个非线性流形上，如果这个流形维数很低，那么数据可以在低维空间可视化；

流形学习是一类借鉴了拓扑流形概念的降维方法，与核PCA的目的一样，它想要在低维空间中尽量保持在高维空间中的结构。一个形象的流形降维过程如下图，我们有一块卷起来的布，我们希望将其展开到一个二维平面，我们希望展开后的布能够在局部保持布结构的特征，其实也就是将其展开的过程，就像两个人将其拉开一样。

流形学习降维利用“近邻保持”的思想。如等度量映射（Isomap）在降维前后保持近邻样本之间的距离，局部线性嵌入（LLE）则是保持领域内样本之间的线性关系。

5.1 等度量映射（ISOMAP）

待续。。。

5.2 局部线性嵌入（LLE）

待续。。。

————————————————————————

参考：

http://mp.ofweek.com/iot/a645673321766