高维数据的维数灾难
在高维情况下出现的数据稀疏,计算距离困难情况下,是所有机器学习都要面临的严峻问题,称为维数灾难。
当一个维度上的数据相对较多时,增加维度会拉伸该维度上的点,使它们更加分开,导致更加稀疏,由于等距离,距离测量变得毫无意义。
数据降维,也称维数约简(Dimensionality Reduction),即降低数据的维数,将原始高维特征空间中的点向一个低维空间投影,新的空间维度低于原始特征空间,所以维数减少了。
在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。
PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
具体原理请参考另一篇文章:http://www.noobyard.com/article/p-pqansghj-qd.html
具体原理请参考另一篇文章:http://www.noobyard.com/article/p-wruusfpo-tb.html
先用PCA降维,再利用最近邻分类器判断
参考链接:http://www.noobyard.com/article/p-ufcaaemx-dc.html
具体原理请参考另一篇文章:http://www.noobyard.com/article/p-vfsjqsmp-py.html
FisherFace 是一种基于LDA(全称Linear Discriminant Analysis, 线性判别分析)的人脸识别算法,而LDA是Ronald Fisher于193年提出来的,所以LDA也被称作是Fisher Discriminant Analysis, 也正因为如此,该人脸识别算法被称为FisherFace。参考链接:http://www.noobyard.com/article/p-ufcaaemx-dc.html
流形学习
非线性降维假设:数据在高维空间的一个非线性流形上,如果这个流形维数很低,那么数据可以在低维空间可视化;
流形学习是一类借鉴了拓扑流形概念的降维方法,与核PCA的目的一样,它想要在低维空间中尽量保持在高维空间中的结构。一个形象的流形降维过程如下图,我们有一块卷起来的布,我们希望将其展开到一个二维平面,我们希望展开后的布能够在局部保持布结构的特征,其实也就是将其展开的过程,就像两个人将其拉开一样。
流形学习降维利用“近邻保持”的思想。如等度量映射(Isomap)在降维前后保持近邻样本之间的距离,局部线性嵌入(LLE)则是保持领域内样本之间的线性关系。
待续。。。
待续。。。
————————————————————————
参考: