Tableau数据可视化
Posted 苦糖?
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Tableau数据可视化相关的知识,希望对你有一定的参考价值。
第1节 简单视图的可视化
- 条形图
- 条形图是一种把连续数据绘制成数据条的表现形式,通过比较不同组的条形长度,从而比较不同组的数据量大小,例如客户的性别、受教育程度、购买方式等。绘制条形图时,不同组之间是有空隙的,如果没有就是直方图,可分为垂直条和水平条。
- 条形图的主要类型如下:(1)簇状条形图和三维簇状条形图:簇状条形图比较各个类别的值。簇状条形图通常垂直轴显示类别,三维簇状条形图以三维格式显示水平矩形。 (2)堆积条形图和三维堆积条形图:堆积条形图显示单个项目与整体之间的关系。三维堆积条形图以三维格式显示水平矩形,而不以三维格式显示数据。 (3)百分比堆积条形图和三维百分比堆积条形图:通常用于比较各个类别的每一数值所占总数值的百分比大小。
- 例如,要创建一个不同子类别商品的利润额条形图,具体步骤如下:
- 连接“商品订单表.xlsx”数据源后,将度量下的“利润额”字段拖放到列功能区,维度下的“子类别”字段拖放到行功能区,Tableau会自动生成条形图,显示商品在各个子类别上的利润额。
- 然后将“利润额”字段拖入“颜色”和“标签”标记,设置图形颜色,并添加视图标题等。
- 饼形图
- 饼形图(即饼图)用于展示数据系列中各项与总和的比例,图中的数据点显示为占总体的百分比,每个数据系列具有唯一的颜色或图案,并且用图例表示。
- 饼图的主要类型如下: (1)三维饼图:以三维格式显示每一数值相对于总数值的大小。 (2)复合饼图:将数值从主饼图中提取并组合到第二个饼形图或堆积条形图的饼图。 (3)分离型饼图:显示每一数值相对于总数值的大小,同时强调每个数值。
- 例如,要创建一个不同地区的销售额饼图,具体步骤如下:
- 将度量下的“销售额”字段拖放到行功能区,将“地区”字段拖放到列功能区,会自动生成柱形图。
- 单击“智能显示”中的饼图视图,它显示每个地区在总销售额中的占比。
- 为了使图形更加直观,我们还需要进一步美化。单击“颜色”按钮,对各个地区的颜色进行编辑。单击“大小”标记后,拖动滑块可以放大或缩小饼图,还可以将“地区”和“销售额”拖入“标签”标记给每组加上标签等。
3. 直方图
直方图是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况,一般用横轴表示数据类型,纵轴表示分布情况。直方图的主要类型如下:
(1)标准型直方图:图形呈现中间高、两边低,左右近似对称。
(2)孤岛型直方图:图形的左侧或右侧出现孤立的小岛。
(3)双峰型直方图:图形中出现两个山峰。
(4)折齿型直方图:图形呈现凹凸不平的形状,
(5)陡壁型直方图:图形像高山一样陡壁,向一边倾斜。
(6)偏态型直方图:图形的顶峰有时偏向左侧、有时偏向右侧。
(7)平顶型直方图:图形没有突出的顶峰,呈平顶型。
例如,要创建一个显示不同订单金额区间的直方图,具体步骤如下:
在度量中选择“销售额”字段,将其拖放到行功能区,还需要单击“智能显示”中的直方图视图,用于创建直方图。显示企业在各个销售额区间的订单次数。
将“支付方式”字段拖入“筛选器”功能区中,例如选择子类别类型为“支付宝”。
将“销售额”字段拖入“颜色”和“标签”标记,并为视图添加标题等,现在可以看出使用支付宝这种支付方式的订单销售额分布情况。
为了能够更清晰的查看销售额分布情况,还可以将横轴的坐标刻度进行固定,这里设置为0到15000(即0K到15K)。
4、折线图
折线图是用直线将各个数据点连接起来而组成的图形,以折线方式显示数据的变化趋势。折线图可以显示随时间而变化的连续数据,因此非常适合显示相等时间间隔的数据趋势。在折线图中,类别数据沿水平轴均匀分布,值数据沿纵轴均匀分布。 数据分析中常常会用到折线图和面积图,看起来很相似,可以完成同一类的分析,但是他们却是不能互换的,正确使用折线图的几点注意事项:
(1)折线图的横坐标只能是时间,如果变成了省份等分类变量,就没有趋势可言。
(2)折线图展示的是一定日期内的数值趋势,而面积图展示的是总值趋势。
例如,要创建一个显示不同订单日期的销
售额折线图,具体步骤如下: 将“订单日期”拖放到列功能区,将“销售额”拖放到行功能区。 为了观察订单按月份的趋势,可以单击列功能区中的“年(订单日期)”,然后选择“月 2015年5月”选项。
我们还可以通过“标记”下的“颜色”“大小”和“标签”等对视图进行美化,并给视图添加标题。
- 气泡图 气泡图可用于展示三个变量之间的关系绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。 气泡图与散点图类似,不同之处在于:气泡图允许在图中额外加入一个表示气泡大小的变量。
例如,要创建一个不同省市销售额大小的气泡图,具体步骤如下: 将度量下的“销售额”字段拖放到列功能区,将维度下的“省市”字段拖放到行功能区,拖放完成后,Tableau会自动生成条形图。
通过Tableau右上方的“智能显示”调整样式,选择“气泡图”选项。 然后将“销售额”字段拖放到“颜色”标记,为视图添加标题,进一步编辑颜色和美化视图。
第2节 复杂视图的可视化
树状图
树状图通过在嵌套的矩形中显示数据,使用维度定义树状图的结构,使用度量定义各个矩形的大小或颜色。可以将度量放在“大小”和“颜色”标记上,在“颜色”标记上可以包括多个维度,添加维度只会将视图分为更多的较小矩形。
例如:要创建不同类型商品的利润额树状图,具体步骤如下: 将“子类别”拖放到列功能区,将“利润额”拖放到行功能区,当列功能区上有一个维度且行功能区上有一个度量时,Tableau会显示一个默认图表,单击工具栏上的“智能显示”按钮,然后选择“树状图”视图类型。
将“商品类别”拖放到标记卡的“颜色”上,视图将被分为三个独立的区域,“商品类别”将确定矩形的颜色。将“销售额”拖放到标记卡的“标签”上,并为视图添加标题等。
散点图
散点图表示一个变量随另一个变量变化的大致趋势,据此判断两变量之间是否存在某种关联,从而选择合适的函数对数据进行拟合。 散点图的主要类型如下:
(1)散点图矩阵:用于同时绘制多个变量之间的两两相关性的散点图。 (2)三维散点图:由3个变量确定的三维空间中研究变量之间的关系。
例如,要创建订单的实际配送天数和计划配送天数的散点图,具体步骤如下: 将“实际配送天数”拖放到行功能区,将“计划配送天数”拖放到列功能区,同时取消菜单栏“分析”下的“聚合度量”选项。
将“配送延迟天数”拖放到“颜色”和“形状”标记上,并为视图添加标题等,从视图可以看出商品的配送延迟天数分布情况。
箱形图
箱形图又称为箱线图或盒须图,是一种用作显示一组数据分散情况资料的统计图。箱形图主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较等。 箱线图的绘制方法是:先将数据进行排序,找出一组数据的上边缘、下边缘、中位数和两个四分位数,然后连接两个四分位数画出箱体,再将上边缘和下边缘与箱体相连接,中位数在箱体中间。
例如,要创建不同类型商品的折扣箱形图,具体步骤如下: 将“商品类别”和“地区”拖放到列功能区,将“折扣”拖放到行功能区,Tableau将创建一个条形图。单击工具栏中的“智能显示”按钮,然后选择“盒须图”视图类型。
将“折扣”拖放到“标签”标记,并为视图添加标题等,从视图可以看出不同类型商品的折扣分布情况。
环形图
环形图是由两个及其以上大小不一的饼形图叠加而成,挖去中间的部分所构成的图形,环形图与饼形图类似,但又有区别,环形图中间有一个“空洞”。
例如,要创建不同地区退单量的环形图,具体步骤如下: 将度量中的“记录数”拖放到行功能区,重复两次操作,并在标记卡上选择“饼图”。 将视图显示方式调整为适应“整个视图”,选择第一个饼图,单击“大小”标记,修改饼图的大小。
在行功能区,将两个记录数的聚合计算类型由“总和”修改为“平均值”。 在第一个度量上,将“地区”字段拖放到“颜色”标记,“利润额”字段拖放到“角度”标记,并设置快速表计算类型为“合计百分比”。
在第二个度量上,鼠标右击纵坐标轴,选择“双轴”选项。
然后鼠标右击纵坐标轴,选择“同步轴”选项。
再右击纵坐标轴,选择“编辑轴”选项,设置轴的范围,使得圆环图置于视图的中间位置,选择“固定”选项,并输入初始值,固定开始为0.8,固定结束为1.2。
然后使用“大小”标记适当调整两个饼形图的大小,使其更加美观。
设置标签,在第一个度量上,将“地区”和“是否退单”拖放到“标签”标记,并设置“是否退单”的快速表计算类型为“合计百分比”。 设置第二个饼图(内部小的饼图)的颜色,选择第二个饼图,然后选择“颜色”标记,选择颜色类型为“无”,最后,为视图添加标题等,使其更加美观。
倾斜图
倾斜图可以展示单个指标在不同时期的变化情况,既能展示值的大小变化,又能展示排名变化等。 例如,我们需要绘制企业各个门店在2018年和2019年销售业绩排名的倾斜图。 数据包含门店名称、2018年排名、2019年排名三个字段。
绘制倾斜图之前,首先需要对基础数据进行整理,创建“排名变化”新字段,即计算“2018年排名”与“2019年排名”的差值。 注意:由于“2018年排名”和“2019年排名”都为非聚合字段,因此在公式中需要对字段进行聚合处理,如添加SUM函数,才能让两个字段进行计算。
要创建的斜线图,其横轴是“2018年排名”和“2019年排名”两个字段,纵轴是排名,相对前面介绍的视图,绘制过程比较复杂,具体操作步骤如下: 将维度下的“度量名称”和度量下的“度量值”分别拖放到列功能区和行功能区。 在左下角“度量值”区域保留“2018年排名”和“2019年排名”两个度量值,删除其他选项,标记类型选择“线”。
将“排名变化”字段拖放到“大小”标记,将“门店名称”拖放到“标签”标记。
单击标记卡中的“标签”,修改标签的对齐和标签标记选项。
倒转坐标轴,在纵轴上通过鼠标右键进入“编辑轴”页面,将纵坐标轴设置为“倒序”,使得排名按照从上往下的顺序,体现球队排名从高到低。 将“度量值”拖放到“标签”标记,单击“标签”进入其设置页面,将标签设置为“<度量值>.<门店名称>”,在视图中将按照设置好的格式进行显示。
对创建的斜线图进行美化,包括添加视图标题、调整“度量值”的数字格式、去除纵坐标轴标题、添加线条颜色等。
第3节 统计分析的可视化
相关分析
- 相关分析使用相关系数表示变量之间的关系;首先判断是否有关系,接着判断关系为正相关或者负相关,相关系数大于0为正相关,反之为负相关,也可以通过散点图直观的查看变量的关系;最后判断关系紧密程度。通常绝对值大于0.7时认为两变量之间表现出非常强的相关关系,绝对值大于0.4时认为有着强相关关系,绝对值小于0.2时相关关系较弱。
- 相关系数有三类:Pearson、Spearman和Kendall相关系数,它们均用于描述相关关系程度,判断标准也基本一致。 (1)Pearson相关系数:用来反映两个连续性变量之间的线性相关程度。 (2)Spearman相关系数:用来反映两个定序变量之间的线性相关程度。 (3)Kendall相关系数:用来反映两个随机变量拥有一致的等级相关性
1.1 创建简单散点图
例如:需要分析“门店A销售额”与“门店A利润额”两个连续变量之间的关系。 将“门店A销售额”与“门店A利润额”分别拖至列功能区和行功能区,此时视图区域仅有一个点,这是由于Tableau会把两个度量按照“总和”进行聚合。选择菜单栏“分析”下的“聚合度量”选项,移除选中标记,即解聚这两个度量字段。
1.2 创建散点图矩阵
散点图矩阵是散点图的高维扩展,可以帮助探索两个及以上变量的两两关系。 例如,需要分析门店A、门店B、门店C三家门店销售额两两之间的关系。 将“门店A销售额”“门店B销售额”“门店C销售额”等分别拖至行功能区和列功能区,并通过“分析”菜单下的“聚合度量”对三个度量进行解聚。
回归分析
在Tableau创建散点图之后,可以通过添加趋势线对存在相关关系的变量进行回归分析,拟合其回归直线。在向视图添加趋势线时,Tableau将构建一个回归模型,即趋势线模型。截至目前,Tableau内置了线性、对数、指数、多项式和幂等5种趋势线模型。
(1)线性:回归方程是线性函数关系y=a+bx1+ cx2+……。
(2)对数:回归方程是对数函数关系y= logax。
(3)指数:回归方程是指数函数关系y= a^x。
(4)多项式:回归方程是多项式函数关系y=a+bx+cx2+dx3+……。
(5)幂:回归方程是幂函数关系y=x^a。
例如,需要对“门店A销售额”与“门店A利润额”两个变量进行回归分析。
2.1 构建回归模型
将“门店A销售额”与“门店A利润额”分别拖至行功能区和列功能区,然后通过菜单栏“分析”下的“聚合度量”对变量进行解聚,生成简单散点图。 在Tableau中,为散点图添加趋势线有两种方法: 方法1:在散点图上单击鼠标右键,选择“趋势线”下的“显示趋势线”,注意默认构建线性回归模型。
方法2:拖放“分析”窗口中的“趋势线”到右侧视图中,可以选择构建模型的类型,有线性、对数、指数、多项式、幂等5类。
下面以“线性”模型为例进行介绍,首先对简单散点图的横坐标起始范围进行设置,范围为40到190。生成趋势线后将鼠标悬停在趋势线上,这时可以查看趋势线方程和模型的拟合情况。
2.2 优化回归模型
在视图上单击鼠标右键,选择“趋势线”下的“编辑趋势线”选项,Tableau弹出“趋势线选项”页面,此时可以重新选择趋势线的类型等。
2.3 评估回归模型
添加趋势线后,如果想查看模型的拟合优度,我们只需在视图中右击鼠标,选择“趋势线”下的“描述趋势模型”选项,打开“描述趋势模型”页面。
聚类分析
- 聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,要求能合理地按各自的特性进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的分析,主要有K均值聚类、系统聚类等。Tableau嵌入的聚类模型是K均值聚类算法。 K均值聚类(K-Means)是一种迭代求解的算法,其步骤是:首先指定聚类数K,软件会随机选取K个点作为初始的聚类中心点。然后计算每个对象与
- K个初始聚类中心之间的距离,并把每个对象分配给距离它最近的聚类中心点。聚类中心以及分配给它们的对象就代表一个类,每个类的聚类中心会根据类中现有的对象重新计算,计算每个类中对象的坐标平均值,这个过程将不断重复直到满足终止条件。
3.1 构建聚类模型
下面以企业经营数据为例,对门店A和门店B在3月份销售额数据进行聚类分析。 将“门店A销售额”拖放到列功能区,将“门店B销售额”拖放到行功能区。通过菜单栏“分析”下的“聚合度量”对变量进行解聚。然后设置横轴和纵轴的刻度范围,都从100开始。
拖放“分析”窗口中的“群集”到右侧视图中,在视图的左上方会显示创建群集的信息。 根据绘制的散点图可以看出,分为4类比较合适,因此在弹出的“群集”对话框中的“群集数”中输入4。
将生成的“群集”字段添加到“标记”卡上的“标签”和“形状”控件,然后,对视图进行适当的美化,聚类分析的结果如图所示。
3.2 描述聚类模型
在“群集”下拉框中,选择“描述群集”选项。Tableau会弹出“描述群集”页面,其中在“摘要”选项卡中,描述已创建的预测模型,包括“要进行聚类分析的输入”、“汇总诊断”等。
3.3 编辑聚类模型
在“群集”下拉框中,选择“编辑群集”选项,在“群集”页面,可以添加聚类变量和修改聚类数。
时间序列分析
- 时间序列分析法是根据过去的变化预测未来的发展,前提是假定事物的过去延续到未来。时间序列分析,正是根据客观事物发展的连续规律性,运用过去的历史数据,通过统计分析,进一步推测未来的发展趋势。事物的过去会延续到未来这个假设前提包含两层含义:一是不会发生突然的跳跃变化,以相对小的步伐前进;二是过去和当前的现象可能表明现在和将来活动的发展变化趋向。
- Tableau内嵌了对周期性波动数据的预测功能,可以分析数据规律、自动拟合、预测未来数据等,同时还可以对预测模型的参数进行调整,评价预测模型的精确度等。但是,Tableau嵌入的预测模型主要考虑数据本身的变化特征,无法考虑外部影响因素,因此适用于存在明显周期波动特征的时间序列数据。
4.1 构建时间序列模型
- 时间序列图是一种特殊的折线图,以时间作为横轴,纵轴是不同时间点上变量的数值。
- 下面以企业经营数据为例,创建3月份门店A利润额的时间序列图。
- 将“门店A利润额”拖放到行功能区,将“月份”字段拖放到列功能区,并单击右键,在弹出的下拉框中选择“天”,切换日期字段的级别,视图区即显示3月份门店A利润额的时间序列图。
4.2 时间序列预测
- Tableau嵌入了“指数平滑”的预测模型,即基于历史数据引入一个简化的加权因子,即平滑系数,以迭代的方式预测未来一定周期内的变化趋势。 该方法之所以称为指数平滑法,是因为每个级别的值都受到前一个实际值的影响,且影响程度呈指数下降,即数值离现在越近权重就越大。 通常,时间序列中的数据点越多,所产生的预测就越准确。如果要进行季节性建模,那么需要具有足够的数据,因为模型越复杂,就需要越多的数据进行训练。
- 截至目前,Tableau有3种方式生成预测曲线:
- 方法1:菜单栏“分析”→“预测”→“显示预测”;
- 方法2:在视图上任意一点单击鼠标右键,选择“预测”→“显示预测”;
- 方法3:拖放“分析”窗口中的“预测”模型到视图中。
- 优化预测模型。Tableau默认的预测模型可能不是最优的。可以通过依次单击菜单栏“分析”→“预测”→“预测选项”选项,打开“预测选项”页面,查看Tableau默认的模型类型和预测选项并进行适当的修改。
- 在“预测选项”窗口中,将“预测长度”选项设置为“自动”,“聚合方式”选项设置为“自动”,“预测模型”选项设置为“自动”,然后单击“确定”按钮。
4.3 评估预测模型
- 依次单击菜单栏“分析”→“预测”→“描述预测”选项,打开“描述预测”对话框,可以查看模型的详细描述,分为“摘要”选项卡和“模型”选项卡。
- 在“摘要”选项卡中,描述了已创建的预测模型,上半部分汇总了Tableau创建预测所用的选项,一般由软件自动选取,也可以在“预测选项”对话框中指定。
第4节 地理数据的可视化
地理数据一般是通过绘制地图实现可视化,地图是指依据一定的数学法则,使用制图语言表达地球上各种事物的空间分布、联系及时间的发展变化状态而绘制的图形。
下面简单介绍一下Tableau绘制地图的步骤:
(1)设置角色:构建地图的第一步是指定包含位置数据的字段。Tableau会自动将地理角色分配给具有公用位置名称的字段。
(2)标记地图:在创建地图时,需要将生成的纬度(生成)和经度(生成)分别拖放到行功能区和列功能区,并将地理字段(如“城市”)拖放到“详细信息”标记。
(3)添加字段信息:为了使地图更加美观,需要添加更多字段信息,可以通过从“数据”窗格中将度量或连续维度拖放到“标记”卡实现。
(4)设置地图选项:在创建地图时,有多个选项可以帮助我们控制地图的外观,菜单栏依次单击“地图”→“地图选项”,打开“地图选项”窗格。
(5)自定义地图:创建地图时,可以使用不同方式浏览视图并与其交互,可以放大和缩小视图、平移、选择标记,甚至可以通过地图搜索具体地点等。
以上是关于Tableau数据可视化的主要内容,如果未能解决你的问题,请参考以下文章
R语言ggplot2可视化百分比显示实战:纵轴显示为百分比在柱状图上显示百分比按照因子变量绘制分组子图(纵轴显示为百分比)可视化图中显示数据百分比
tableau可视化数据分析60讲(二十二)-tableau常见面试题目