平行坐标系:高维数据可视化分析的必备杀手锏
金蝶云社区-首席数据科学家身份
首席数据科学家
7人赞赏了该文章 522次浏览 未经作者许可,禁止转载编辑于2022年04月01日 11:23:00

 今天聊聊一种不太常见但又挺好用的可视化图形:平行坐标系。


关于数据可视化,我们很久之前分享过 Excel基础图表 以及 Excel进阶图表,都是Excel支持的我们常用的一些图表逻辑。今天分享一个数据人应该见过但是不那么熟悉的图形:平行坐标系(Parallel Coordinates)。



01、定义及适用场景


首先,聊聊平行坐标系的一些整体概述内容。


(1)基础定义


平行坐标系,是一种含有多个垂直平行坐标轴的统计图表。每个垂直坐标轴表示一个字段(维度),每个字段(维度)又用刻度来标明范围,如下示例图。

1.jpg



这样,一个多维的数据可以很容易地在每一条轴上找到“落点”,从而连接起来,形成一条折线。随着数据增多,折线堆叠,分析者则有可能从中发现特性和规律,比如发现数据之间的聚类关系。


(2)历史发展


大约在一百多年前,就已经有人运用平行坐标,来对复杂事件做可视化。


在20世纪70年代,作为一种统计图表,平行坐标系被特拉维夫大学的Alfred Inselberg系统发展起来。


(3)适用场景


平行坐标图最适用于多维数据(尤其是维度大于3个时,3个以内的维度可以用散点图)的分析和比较。例如,多个学科、多个考核指标、多个关键参数等。


当然,前提是用来比较的对象都具有这些维度。比如,一个经典的案例(下文中的场景案例2),是用平行坐标系来比较世界各国汽车在性能上的差异。对于汽车而言,这些维度是共有的(包括耗油量、汽缸数、加速度等等),因而适合比较。




02、图表详细逻辑


我们以一个例子,理解一下图表的数据逻辑。


例如,某班主任想分析班级学生的优劣势科目,以及每个学生的偏科情况。下面是具体数据表:


2.jpg


做完平行坐标图后:


3.png


平行坐标系的每个坐标轴,很可能有不同的数据范围,这一点很容易造成读者误解。作图时,最好显著标明每一根轴上的最小值、最大值。


使用平行坐标系时,如何确定轴的顺序,是可以人为决定的。一般来说,顺序会影响阅读的感知和判断。两根坐标轴隔得越近,人们对二者的对比就感知地越强烈。因此,要得出最合适、美观的排序方式,往往需要经过多次的试验和比较。反过来讲,尝试不同的排布方式,也可能有助于得出更多的结论。



03、与其他图表的关系


下面我们看一看平行坐标系和其他比较相似的图表的对比。


(1)与折线图


平行坐标系与折线图完全不同。

4.png



折线图的数据是通过时间组织起来的(每个数据点之间包含着时间前后的关系),但平行坐标轴并没有时间序列,它的坐标轴是可以人为设定顺序的,点与点之间也没有因果关系,折线并不代表趋势。各个坐标轴之间也没有因果关系。


(2)与桑吉图


5.jpg

看着挺像的,但是桑吉图有个重要的逻辑是:每个竖轴前后是有顺序关系的,而平行坐标系没有先后顺序。


因此,桑吉图更多作为用户路径先后顺序的分析,以及层次拆分的分析。


(3)与雷达图


其实,平行坐标系和雷达图是最相近的。


6.png



雷达图表示的是多个维度上的分布情况,平行坐标系也是。因此可以将平行坐标系理解成雷达图的展开。大多数情况下,这两者确实可以互换。



04、劣势以及交互提升


平行坐标系的弊端在于折线太多、看上去十分庞杂,过于凌乱。但平行坐标系在处理多维数据上的优势,仍然是其他统计图难以比拟的。尤其是,当平行坐标系配合交互功能使用时,其价值就会立刻显现。


最好的解决方法是加入交互——“Brushing”,用户可以通过“刷”的方法,在坐标轴上“刷”出他们想要探索的部分。基本操作是,用户可以在每一根垂直坐标轴上“刷”出自己想要的范围,处于范围内的折线高亮,其余的呈灰度。这样一来,我们既可以看到所有折线堆叠出来的整体景观,又可以自由定制想看的范围,可以说是“见树又见林”。


当然,交互的设计可以不限于此,比如下图将平行坐标系与表格结合起来,对于小型的数据集来说,会更加一目了然。


7.png


此外,如下图所示,也可以通过技术将繁杂的折线“捆”在一起(Bundling Technique),这样,人们的视觉就更能集中于起始的刻度。


8.png




05、典型案例


最后,我们看两个典型的利用平行坐标系的案例。


(1)历年世界500强排名


下图总结了1955-2010年来的世界五百强公司排名、收入和利润情况。


9.png



每一根竖轴代表一年的排名,通过将每家公司历年的排名描点、连线,就形成了一条折线。鼠标滑动时,相应的公司会高亮显示,方便读者探索它的兴衰变化。例如上图中,我们看到可口可乐公司的排名,尽管有所波动,但始终位于高位,并且稳中有升,在1994年达到巅峰,之后有所回落。



(2)汽车参数对比


在平行坐标系的众多简介中,几乎都会涉及到这个汽车的案例——数据包括上世纪70、80年代的32款汽车,以及这些汽车的气缸数(cylinders)、引擎大小(displacement)、每加仑汽油行驶的里程(MPG)、功率(horsepower)、重量(weight)等等。


10.png



从图中(Evans, no date),我们可以清晰地看出一些关系,例如从里程与气缸数呈负相关、气缸数与功率呈正相关。再比如,随着时间发展,汽车越来越轻了。通过“Brushing”功能,还有更多新奇发现。


http://www.columbia.edu/~cme2126/datavisuals/bigdata_parallelcoordinates.html


关于平行坐标系,我们就先介绍这些吧。如果大家对可视化图表感兴趣,后面我作为系列展开多分享分享。我觉得这种基础的数据产品以及数据分析的知识点,还是有必要扎实掌握的。


本文转载自:首席数据科学家

作者:NK冬至

原文链接:https://mp.weixin.qq.com/s/EugsNILlWgA4ghBlAr-L0A

发布于 数据智能 社群

赞 7