优达系列:商业数据分析之为何使用数据可视化

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了优达系列:商业数据分析之为何使用数据可视化相关的知识,希望对你有一定的参考价值。

概览

为什么要使用数据可视化?通过展示三个例子可以看出数据可视化: 

1、可以迅速区分数据集的趋势类型

2、可以迅速了解数据集内部的对比关系

3、可以在小范围的物理区域展示大量的数据

 


 

例1:安斯库姆四重奏(Anscombe‘s quatet ) 

给定四组表格数据如下:

I (x)I (y)II (x)II (y)III (x)III (y)IV (x)IV (y)
10.08.0410.09.1410.07.468.06.58
8.06.958.08.148.06.778.05.76
13.07.5813.08.7413.012.748.07.71
9.08.819.08.779.07.118.08.84
11.08.3311.09.2611.07.818.08.47
14.09.9614.08.1014.08.848.07.04
6.07.246.06.136.06.088.05.25
4.04.264.03.104.05.3919.012.50
12.010.8412.09.1312.08.158.05.56
7.04.827.07.267.06.428.07.91
5.05.685.04.745.05.738.06.89

Step 1 基本统计特征

通过计算四组数据的基本统计特征,四组数据具有相同的统计特征,具体统计值如下:

属性
每组 x 的均值9(精确值)
每组 x 的样本方差11(精确值)
每组 y 的均值7.5 (精确到小数点后两位)
每组 y 的样本方差4.122 或 4.127(精确到小数点后三位)
每组 x 和 y 之间的关系0.816 (精确到小数点后三位)
每组的线性递归直线3.00 + 0.500*x(分别精确到小数点后两位和三位)

其中线性回归的拟合优度$R^2$也相同,只看数据本身和基本统计特征值的话,除了第四组中,含有大量相同的x值之外,根本无法看出四组数据有什么不同。那么接下来看看可视化后的效果吧!

Step 2 可视化效果

 技术分享

 数据可视化之后,明显看出四组数据之间的差异,即第二、三、四组的线性趋势明显不对,这就是数据可视化的第一个作用:迅速看出数据集的趋势类型。

注:基本统计特征值无法区分数据集之间的趋势差异,并不代表无法用其他统计量区分数据趋势类型,只是相对构建和计算复杂的统计量来说,数据可视化的时间成本更少。这可能也是为什么“在回归分析中频繁使用散点图看趋势”的原因。

 

以上是关于优达系列:商业数据分析之为何使用数据可视化的主要内容,如果未能解决你的问题,请参考以下文章

tableau实战系列(四十七)-Tableau快速生成可视化视图

《精通Tableau商业数据分析与可视化》之序言

[直播预告]商业智能BI与数据可视化

Tableau可视化分析实战系列Tableau基础概念全解析 -数据结构及字段

[原创.数据可视化系列之二]使用cesium三维地图展示美国全球军事基地分布

[原创.数据可视化系列之三]使用Ol3加载大量点数据