降维技术

1、背景

高维数据的维数灾难

        在高维情况下出现的数据稀疏,计算距离困难情况下,是所有机器学习都要面临的严峻问题,称为维数灾难。

        当一个维度上的数据相对较多时,增加维度会拉伸该维度上的点,使它们更加分开,导致更加稀疏,由于等距离,距离测量变得毫无意义。

2、降维技术概述

        数据降维,也称维数约简(Dimensionality Reduction),即降低数据的维数,将原始高维特征空间中的点向一个低维空间投影,新的空间维度低于原始特征空间,所以维数减少了。

        在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。

2.1 降维具有如下一些优点:

  • 1) 使得数据集更易使用。
  • 2) 降低算法的计算开销。
  • 3) 去除噪声。
  • 4) 使得结果容易理解。

2.2 解决尾数灾难的两个方法:

  1. 特征选择,参考上一篇文章:http://www.noobyard.com/article/p-cwluveqw-nc.html
  2. 特征降维

2.3 降维效果的评估

  1. 比较降维前后学习器的性能;
  2. 降维到二维或者三维,可通过可视化技术来直观判断降维效果,增加可解释性;

3、无监督线性降维

3.1 PCA

        PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。

具体原理请参考另一篇文章:http://www.noobyard.com/article/p-pqansghj-qd.html

3.2 SVD

具体原理请参考另一篇文章:http://www.noobyard.com/article/p-wruusfpo-tb.html

3.3 PCA在人脸识别中的应用:Eigenface

先用PCA降维,再利用最近邻分类器判断

参考链接:http://www.noobyard.com/article/p-ufcaaemx-dc.html

4、有监督线性降维

4.1 LDA

具体原理请参考另一篇文章:http://www.noobyard.com/article/p-vfsjqsmp-py.html

4.2 PCA在人脸识别中的应用:FisherFace

FisherFace 是一种基于LDA(全称Linear  Discriminant Analysis, 线性判别分析)的人脸识别算法,而LDA是Ronald Fisher于193年提出来的,所以LDA也被称作是Fisher Discriminant Analysis, 也正因为如此,该人脸识别算法被称为FisherFace。参考链接:http://www.noobyard.com/article/p-ufcaaemx-dc.html

5、非线性降维

流形学习

非线性降维假设:数据在高维空间的一个非线性流形上,如果这个流形维数很低,那么数据可以在低维空间可视化;

流形学习是一类借鉴了拓扑流形概念的降维方法,与核PCA的目的一样,它想要在低维空间中尽量保持在高维空间中的结构。一个形象的流形降维过程如下图,我们有一块卷起来的布,我们希望将其展开到一个二维平面,我们希望展开后的布能够在局部保持布结构的特征,其实也就是将其展开的过程,就像两个人将其拉开一样。 

                                     

流形学习降维利用“近邻保持”的思想。如等度量映射(Isomap)在降维前后保持近邻样本之间的距离,局部线性嵌入(LLE)则是保持领域内样本之间的线性关系。

5.1 等度量映射(ISOMAP)

待续。。。

5.2 局部线性嵌入(LLE)

待续。。。

————————————————————————

参考:

http://mp.ofweek.com/iot/a645673321766