主成分分析和因子分析的介绍、区别和联系

时间 2020-08-08 标签主成分分析因子分析介绍区别联系

本文介绍一下主成分分析、因子分析，进而介绍它们之间的区别和联系。
两个方法的推导我也还有一些没有彻底理解，所以中间有些理解可能有误，请你们批评指正web

主成分分析

主成分分析：将多个有必定相关性的指标进行线性组合，以最少的维度解释原数据中尽量多的信息为目标进行降维，降维后的各变量间彼此线性无关。
从其介绍中咱们能够知道，主成分分析其实是将相关性很强的变量经过必定的线性组合合并成一个综合变量，达到降维的效果，所以对于主成分分析只对那些变量间相关性强的变量才能有效降维。机器学习

推导角度一：
原来样本有p个变量x1···xp，现首先指望经过一个线性组合使得相应的方差最大，接下来，相似的再经过一个线性组合找到第二个新变量，使其在原样本信息中除被第一维度y1解释掉的部分，剩余部分信息的方差最大，依次类推下去，直到可以解释足够多的原样本空间信息（通常累计方差占80%以上），舍弃剩余的一些信息，以达到降维的效果。
详细的推导见下面两张图片（划得有点乱了，实在抱歉啦）

图1

图2svg

推导角度二：
对于正交空间的样本点，寻找一个超平面，使得
- 最近重构性：样本点到这个超平面的距离足够近；
- 最大可分性：样本点在这个超平面上的投影能尽量分开；
  周志华老师的书中代表这两种方法获得的是公式是等价的。
  
  图3
  
  图4
  我以为周老师书中的最近重构性也能够理解为丢失掉的信息尽量少，由于获得新的正交坐标系的基向量{w1,w2,w3````xd}，而后丢弃掉一些坐标维度后，将源空间的样本点投影到新空间获得新空间样本点Zi，而后基于Zi重构xi，最后计算二者的距离，使其距离和最小，实际上就是经过距离来度量损失掉的信息，令丢失掉的信息最少，即距离最大，获得新的坐标维度。

因子分析

————————————————————————————————————————
首先，先介绍下因子分析的整个思路：
因子分析其实是提取出反应原变量的一些共性因子，同时但愿尽量少的损失样本信息。
其推导的思路是这样的：一、创建一个模型：X=AF+e;二、但愿求出A，因而对模型取方差，得，若没有特殊因子项，而后使用样本的协方差阵去估计X的协方差，进而就能够求出A了；三、可是实际上咱们但愿获得少数几个能反应共性变异的因子，所以舍弃特征根小的那几个，即尽量的少损失一些信息，并以此达到降维的效果，实际上损失的这一部分也就是特殊因子了。
—————————————————————————————————————————
接下来详细介绍这个过程：函数

因子分解

因子分析归纳来讲就是要获得一些公共因子，利用这些因子来解释原来的样本空间数据，即将X进行分解，X=AF，即
.目标也是尽量保留x中的信息。学习

因子旋转

在完成分解，获得公共因子后，若是各个公共因子的实际意义不明显的话，通常还须要再进行坐标旋转，坐标旋转就是不改变因子所携带的各变量的信息量，可是改变各个因子所携带的信息量，使得各个因子的实际意义明显。
好比最多见的正交旋转（Varimax），最大方差正交旋转法，使得因子载荷的方差尽量大，即信息分布尽量不均匀，也就是信息要集中分布于几个不一样的因子上。.net

因子得分计算
获得意义明确的公共因子以后，因为咱们以前其实是获得了因子载荷矩阵A，即获得了下述方程组，可是咱们会发现，方程数量p多余咱们要求的值F的数量，这样一来咱们须要用一些手段来获得近似F，好比回归法等等，来计算出因子得分，也就是各个样本各个因子的实际值。
详细推导见下述，也画的有点多了，见谅
因子分解的推导

图5

图6

图7
因子旋转的具体过程

图8

图9
因子得分的计算

图10
——————————————————————————————————————
总结一下主成分分析的步骤和因子分析的步骤：
主成分分析分析过程：设计

1.将原始数据标准化，以消除变量间在数量级和量纲上的不一样。
2. 求标准化数据的相关矩阵。（标准化数据的协方差矩阵就是原数据的相关系数矩阵）
3. 求相关矩阵的特征值和特征向量。
4. 计算方差贡献率与累计方差贡献率：每一个主成分的贡献率表明了原数据总信息量的百分比。
5. 肯定主成分：设C1,C2,C3…Cp为p个主成分，其中前m个主成分的的总信息量（方差贡献度）不低于80%时，课提取前m个主成分来反映原评价对象。
6. 用原指标的线性组合来计算各主成分得分：以各主成分对原指标的相关系数为权，将各个主成分表示为原指标的线性组合，而主成分的经济意义则由权数较大的指标的综合意义来肯定（通常主成分能够不作解释，这是因子分析擅长的）
7. 综合得分：

8. 得分排序：利用总得分获得得分名次3d

因子分分析分析过程：xml

将原始数据标准化，以消除变量间在数量级和量纲上的不一样。
求标准化数据的相关矩阵。（标准化数据的协方差矩阵就是原数据的相关系数矩阵）
求相关矩阵的特征值和特征向量。
计算方差贡献率与累计方差贡献率。
肯定因子：设F1,F2,F3…Fp为p个主成分，其中前m个因子的的总信息量（方差贡献度）不低于80%时，课提取前m个因子来反映原评价对象。
因子旋转：若所得到的m个因子没法肯定或其实际意义不是很明显，这时需将因子进行旋转以得到较为明显的实际意义。
用原指标的线性组合来计算各因子得分：采用回归估计法，Bartlett估计法计算因子得分
综合得分：以各因子的方差贡献率为权，由各因子的线性组合获得综合评价指标函数
得分排序：利用总得分获得得分名次
———————————————————————————————————————
说一下个人理解：主成分分析和因子分析的区别和联系（可能理解有误，但愿你们能指正）
一、主成分的目的是将原来的几个相联系的变量经过线性组合压缩成少数的几个综合变量，加以考察，可是这几个综合变量每每不具备明显的现实意义，而因子分析则是指望将一些相互联系的变量压缩，也是经过线性组合获得一些公共因子，这些公共因子每每有明显的现实意义。一个在于将原来的变量综合（Y=AX），一个在于将变量分解，提取公共因素（X=AF）。
二、主成分分析的目标是以尽量少的综合变量去蕴含原来数据中尽量多的信息，而因子分析的目标是尽量包含原数据尽量多的信息量，没有要求要以尽量少的因子。也就是说主成分分析的关键在于“变异数”的问题，但愿综合指标尽量少，而因子分析在于共变异数的问题，也就是但愿变量可以提取出原数据中共有信息（共有方差/变异）。
对于其中说的共有方差/变异有些难理解，我是这样来理解的。

因子分解如上图所示，这个等式X=AF+e能够理解成一个回归式，因变量是X，自变量是F，e是偏差（随机变量），因此实际上该因子分解时在作一个提取影响X的自变量（公共因子）的过程，也就是提取共有方差。
三、当因子分析的特殊因子方差贡献率为0时，主成分分析和因子分析（使用主成分法求公共因子）是彻底等价的。二者的系数矩阵之间只是相差一个系数，这个系数是各个特征根的二次平方根。当主成分分析取标准化系数时，两个系数矩阵就彻底一致了。

——————————————————————————————————
验证性因子分析
上面所说的因子分析也就是经常使用的探索性因子分析，而实际因子分析还有一种验证性因子分析，验证性因子分析正如其名字，是用来验证一种结构的，举一个例子：根据理论咱们能够构建出一个问卷，问卷中有不少题目，其中1-3题共同反映因子A，4-6题共同反映因子B，而后即可以使用验证性因子分析（CFA），去验证这种关系是否存在，以及问卷设计的信效度是否很好。具体的介绍能够个人这篇博文

————————————————————————————————————
参考文献：
王斌会.《多元统计分析及R语言建模》
周志华.《机器学习》
张文彤,董伟.《SPSS统计分析高级教程》对象