本文介绍一下主成分分析、因子分析,进而介绍它们之间的区别和联系。
两个方法的推导我也还有一些没有彻底理解,所以中间有些理解可能有误,请你们批评指正web
主成分分析:将多个有必定相关性的指标进行线性组合,以最少的维度解释原数据中尽量多的信息为目标进行降维,降维后的各变量间彼此线性无关。
从其介绍中咱们能够知道,主成分分析其实是将相关性很强的变量经过必定的线性组合合并成一个综合变量,达到降维的效果,所以对于主成分分析只对那些变量间相关性强的变量才能有效降维。机器学习
图2svg
————————————————————————————————————————
首先,先介绍下因子分析的整个思路:
因子分析其实是提取出反应原变量的一些共性因子,同时但愿尽量少的损失样本信息。
其推导的思路是这样的:一、创建一个模型:X=AF+e;二、但愿求出A,因而对模型取方差,得,若没有特殊因子项,而后使用样本的协方差阵去估计X的协方差,进而就能够求出A了;三、可是实际上咱们但愿获得少数几个能反应共性变异的因子,所以舍弃特征根小的那几个,即尽量的少损失一些信息,并以此达到降维的效果,实际上损失的这一部分也就是特殊因子了。
—————————————————————————————————————————
接下来详细介绍这个过程:函数
因子分析归纳来讲就是要获得一些公共因子,利用这些因子来解释原来的样本空间数据,即将X进行分解,X=AF,即
.目标也是尽量保留x中的信息。学习
在完成分解,获得公共因子后,若是各个公共因子的实际意义不明显的话,通常还须要再进行坐标旋转,坐标旋转就是不改变因子所携带的各变量的信息量,可是改变各个因子所携带的信息量,使得各个因子的实际意义明显。
好比最多见的正交旋转(Varimax),最大方差正交旋转法,使得因子载荷的方差尽量大,即信息分布尽量不均匀,也就是信息要集中分布于几个不一样的因子上。.net
因子得分计算
获得意义明确的公共因子以后,因为咱们以前其实是获得了因子载荷矩阵A,即获得了下述方程组,可是咱们会发现,方程数量p多余咱们要求的值F的数量,这样一来咱们须要用一些手段来获得近似F,好比回归法等等,来计算出因子得分,也就是各个样本各个因子的实际值。
详细推导见下述,也画的有点多了,见谅
因子分解的推导
图5
图6
图7
因子旋转的具体过程
图8
图9
因子得分的计算
图10
——————————————————————————————————————
总结一下主成分分析的步骤和因子分析的步骤:
主成分分析分析过程:设计
1.将原始数据标准化,以消除变量间在数量级和量纲上的不一样。
2. 求标准化数据的相关矩阵。(标准化数据的协方差矩阵就是原数据的相关系数矩阵)
3. 求相关矩阵的特征值和特征向量。
4. 计算方差贡献率与累计方差贡献率:每一个主成分的贡献率表明了原数据总信息量的百分比。
5. 肯定主成分:设C1,C2,C3…Cp为p个主成分,其中前m个主成分的的总信息量(方差贡献度)不低于80%时,课提取前m个主成分来反映原评价对象。
6. 用原指标的线性组合来计算各主成分得分:以各主成分对原指标的相关系数为权,将各个主成分表示为原指标的线性组合,而主成分的经济意义则由权数较大的指标的综合意义来肯定(通常主成分能够不作解释,这是因子分析擅长的)
7. 综合得分:
8. 得分排序:利用总得分获得得分名次3d
因子分分析分析过程:xml
————————————————————————————————————
参考文献:
王斌会.《多元统计分析及R语言建模》
周志华.《机器学习》
张文彤,董伟.《SPSS统计分析高级教程》对象