高维非空间数据可视化

高维非空间数据可视化

数据变换

降低维度:
  使用线性或非线性变换把高维数据投影到低维空间
投影保留重要的关系(无信息损失;保持数据区分等)
在这里插入图片描述
方法:
线性方法

  • 主成分分析(PCA)
  • 多维尺度分析(Multidimensional Scaling,MDS)
  • 非负矩阵分解(NMF)

非线性方法

  • ISOMAP
  • 局部线性嵌套(LLE)

主成分分析

最大化 投影后的方差
最小化投影后的损失
在这里插入图片描述

方差:
方差描述变量的信息量
在这里插入图片描述

在这里插入图片描述

最大化投影后的方差
在这里插入图片描述

特征向量:
在这里插入图片描述

基于主成分分析(PCA)的可视化过程
在这里插入图片描述

多维尺度分析(MDS)

基于数据集相似程度的降维方法
(在某些情况下,只能够衡量数据点之间的距离)
输入:
 数据点X间的相似矩阵M,以及投影的维度K
输出:
 所有数据点在K维平面上的坐标Y

在这里插入图片描述

如果将数据点的相似度定义为数据点之间的欧式距离,那么多为尺度分析(MDS)等价于主成分分析(PCA)
(MDS允许定义不同的相似度,因而更加灵活)

数据呈现

高维数据呈现方法:
 基于点的方法——散点矩阵、径向布局
 基于线的方法——线图、平行坐标、径向轴
 基于区域的方法——柱状图、表格显示、像素图、维度堆叠、马赛克图
 基于样本的方法——切尔诺夫脸谱图、邮票图

散点矩阵:
 使用一个二维散点图表达每对维度之间的关系
 直观显示两个维度间的相关性
 散点图数目与数据维度平方成正比

径向布局法:
 基于弹簧模型的圆形布局方法
 将代表N维的N个锚点至于圆周上
 根据N个锚点作用的N种力量将数据点散布于圆内。

线图
 单变量可视化方法。
 通过多子图、多线条等方法可以延伸表示高维数据。
 通过不同的视觉通道编码不同的数据属性

基于区域的方法

像素图:
介于点方法和区域方法的混合方法
使用具有颜色的小方块表达每个数据的单维度属性。
最大程度利用屏幕空间

维度堆叠:
将离散的N维空间映射到二维空间
将二维空间根据多个独立的数据属性迭代划分成若干网格
显著增加表达信息量
比较同类格式、不同数据的差别

马赛克图:
划分二维空间可视化多维数据
根据分布来分配空间大小
首先根据第一维度水平划分空间,再根据第二维度垂直划分空间,重复此过程直到遍历所有维度

星形图: 使用“辐条”编码数据值 每个数据点是一条星形折线