高维非空间数据可视化

时间 2021-01-05

数据变换

降低维度：
　　使用线性或非线性变换把高维数据投影到低维空间
投影保留重要的关系（无信息损失；保持数据区分等）

方法：
线性方法

非线性方法

主成分分析

最大化投影后的方差
最小化投影后的损失

方差：
方差描述变量的信息量

最大化投影后的方差

特征向量：

基于主成分分析（PCA）的可视化过程

基于数据集相似程度的降维方法
（在某些情况下，只能够衡量数据点之间的距离）
输入：
　数据点X间的相似矩阵M，以及投影的维度K
输出：
　所有数据点在K维平面上的坐标Y

如果将数据点的相似度定义为数据点之间的欧式距离，那么多为尺度分析（ＭDS）等价于主成分分析（PCA）
（MDS允许定义不同的相似度，因而更加灵活）

高维数据呈现方法：
　基于点的方法——散点矩阵、径向布局
　基于线的方法——线图、平行坐标、径向轴
　基于区域的方法——柱状图、表格显示、像素图、维度堆叠、马赛克图
　基于样本的方法——切尔诺夫脸谱图、邮票图

散点矩阵：
　使用一个二维散点图表达每对维度之间的关系
　直观显示两个维度间的相关性
　散点图数目与数据维度平方成正比

径向布局法：
　基于弹簧模型的圆形布局方法
　将代表N维的N个锚点至于圆周上
　根据N个锚点作用的N种力量将数据点散布于圆内。

线图
　单变量可视化方法。
　通过多子图、多线条等方法可以延伸表示高维数据。
　通过不同的视觉通道编码不同的数据属性

像素图：
介于点方法和区域方法的混合方法
使用具有颜色的小方块表达每个数据的单维度属性。
最大程度利用屏幕空间

维度堆叠：
将离散的N维空间映射到二维空间
将二维空间根据多个独立的数据属性迭代划分成若干网格
显著增加表达信息量
比较同类格式、不同数据的差别

马赛克图：
划分二维空间可视化多维数据
根据分布来分配空间大小
首先根据第一维度水平划分空间，再根据第二维度垂直划分空间，重复此过程直到遍历所有维度

星形图：使用“辐条”编码数据值每个数据点是一条星形折线