从坐标轴要不要从0开始谈起:数据可视化设计过程中的一些感受
Posted 彩色说
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从坐标轴要不要从0开始谈起:数据可视化设计过程中的一些感受相关的知识,希望对你有一定的参考价值。
数据可视化是利用我们的视觉感知能力,对数据进行有效地展示与传递,放大我们对于信息的感知能力的一个过程。数据可视化在我们日常的生活中发挥着越来越重要的作用,适当的可视化设计可以帮助我们有效地获取信息、推导结论。一个完整的可视化图表,有几种固定的绘制规范:
原始数据;
变量转换:如将数值转化为排序关系;
比例尺转换:如线性比例、对数比例等;
坐标系:如笛卡尔坐标系、极坐标系等;
可视化元素:如点、线、柱、颜色等;
指导元素:坐标轴、图例、标注、标题等附加说明性元素。
一般柱状图示例
以上图为例,图中的可视化元素包括:矩形以及矩形上的数值标注、颜色等。指导元素包括:两个坐标轴、数据来源文字描述、标题等信息。
坐标轴是十分重要的一类辅助元素。在绘制坐标轴时,我们可以根据需求决定保留坐标轴还是省略坐标轴而直接在数据点上标记数值。在做出是否绘制的决定时,我们需要考虑图表的目标受众与数据本身的特性。如果我们想要观察数据的整体变化趋势,那么常常需要保留坐标轴;而如果数据值本身较为特殊,而我们的关注点也正在这些特殊的数据点上,那么省略坐标轴的设计或许也很合适。
当需要绘制坐标轴时,一般至少有一个坐标轴展示的是数值类型的数据值(如上图中的X轴)。此时需要设计者做出一个选择,坐标轴是否要严格地从0开始?这个问题我们可以分不同的图表类型来讨论。一般认为线图并不需要严格地从0开始,因为线图绘制的是连续的数据,往往反映数据的整体变化趋势,因此并不需要坐标轴从0开始绘制。但是当线图的坐标轴不从0开始时,也应当注意提醒图表的读者注意到坐标轴的起始点特征,否则会误导读者对于信息的理解。如下图所示,一年多的时间里深圳房价下降只有1426元,下降幅度也只有2.5%左右。若读者没有注意到Y轴的起点是54185元,而直接观察曲线下降幅度,则会出现下降幅度很大错误的理解。
坐标轴没有从0开始的折线图示例
一般认为柱状图必须以0为原点,这一规则常常被描述为涉及到数据可视化图表是否能够准确表达信息。更进一步地说,这一规则还涉及到一个道德问题,既作图者是否在有意欺骗读者。Edward R.Tufte提出能够准确传达信息应当是数据可视化的第一要求。他提出有两条准则可以帮助提升传达信息的准确度:
代表数值的数据应当映射为成比例的物理度量;
使用清楚的、细致的、周密的标注来防止图表被扭曲与误解,在图表上解释数据,将重要事件标注出来。
Edward提出,对于事实的扭曲程度可以根据扭曲因子(Lie Factor)做出评估:
当扭曲因子约等于0.95—1.05之间时,图表对于数据的展示没有扭曲或扭曲程度相对较小;而扭曲因子过大或过小时,可视化图表对于数据产生了较大的扭曲,会影响读者对于信息的理解。
以第一张图为例,其扭曲因子计算方法为:图表中的尺寸变化=代表河南的矩形大小/代表广东的矩形大小≈1.06;数据中的尺寸变化=河南考生数量/广东考生数量≈1.06;因此可以计算出:扭曲因子=1.06/1.06=1,既该图表的绘制方式没有扭曲数据的本质。
而当图表的数值坐标轴不从0开始时,必然会导致图表中的尺寸变化变大,而扭曲因子也会随之变大,进而影响读者对于数据的理解。此外,象形柱图一般也会产生较大的扭曲因子,如下图所示,但在此不做深入分析。
展示儿童平均身高变化的象形柱图
那么是不是就可以确定地说:柱状图的数值坐标轴必须要从0开始。我想要回答这个问题,还是不能简单地根据可视化图表的类型作出回答。制作可视化图表的目的是给人看,那么就需要在制作的时候充分结合数据特点、充分考虑读者的需求来做出相应的设计调整。如下图所示,是我在《砥砺奋进的五年》展览中拍到的一张信息图表,这张图想说明的是我国出生人口性别比持续下降这一事实。
我国出生人口性别比持续下降(图1)
从柱状图设计的原则考虑,这一图表明显违背了数值坐标轴从0开始这一原则。但是从人口性别比例的组成和我国计生事业的发展现状考虑,出生人口性别男女比例不可能会出现小于100的数值,若坚持坐标轴从0开始,那么绘制出来的图表会如下图所示:
我国出生人口性别比持续下降(图2)
这两个图的对比可以看出,采取不同的设计在读者心中形成的观感差异十分巨大。有人或许会怀疑这类图表设计会故意采取这种设计,以起到宣传和鼓舞人心的作用。那么我们可以看一下另外一张柱状图设计:
英国人民第一次买房子的平均年龄变化
这张由国外数据分析师Mona Chalabi制作柱状图展示的是英国人民第一次买房子的平均年龄变化,这张图采用象形柱图的方式展示了2007年到2017年十一年里英国人民第一次买房的平均年龄不断增大的趋势。这张图没有采用数值坐标轴从0开始的设计,因此也引起了一些讨论。有些人认为,这类图必须严格遵守坐标轴从0开始的设计的原则,否则就会过分夸大数值的变化趋势,对读者产生误导。而按照坐标轴从0开始的原则,绘制出来的图表将会是如下图所示:
英国人民第一次买房子的平均年龄变化(坐标轴从0开始绘制)
上图虽然也可以略微看到一些数值变化的规律,但明显不如第一张图那么的明显。更重要的是英国的法律法规规定,英国的国民不能在小于18岁时购买房屋,因此不可能会出现高度小于18的柱子。可视化图表的设计初衷是为了帮助读者理解数据中的复杂规律。而房屋初次购买年龄这类数据无疑是对于变化特别敏感的数据,即使是年龄变化了一岁,也能够说明社会、经济发生了重大的变化(生育率也是同理)。如果过分地追求符合一些设计原则,那么还不如去直接阅读表格中的数据更为科学合理。
在网友讨论购房年龄的图表该怎么设计时,有一位用户坚持柱状图的坐标轴应当严格遵守从0开始的准则,甚至在推特上@了扭曲因子提出者Edward为自己背书,但是Edward却直截了当地给出了自己的回答“No.”
Edward本人对于这一争论的回复
数据可视化的其它方面的设计也是如此,经常在网上看到一些关于可视化图表设计的讨论——这个设计不对,那个设计违背了原则等等。但是这些发出评论的人却往往忽略了可视化设计的最根本目的,既可视化还是要给人看的,最终在人的脑中形成心理模型。可视化最伟大的价值与可取之处在于它使我们注意到从未预见到的事物,让一些现象或现实可见并且易懂,这些现象大多是肉眼观察不到的,有些甚至不具备可见性。而过分地追求一些固有的规则,往往会牺牲掉这些信息的可见性。
作者 孔令远
以上是关于从坐标轴要不要从0开始谈起:数据可视化设计过程中的一些感受的主要内容,如果未能解决你的问题,请参考以下文章