Tableau可视化分析实战系列Tableau基础概念全解析 -数据结构及字段
Posted 文宇肃然
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Tableau可视化分析实战系列Tableau基础概念全解析 -数据结构及字段相关的知识,希望对你有一定的参考价值。
前言
什么是维度和度量?为何有一些字段维度和其他度量?
为何一些字段的背景颜色是蓝色,而另外一些字段的背景颜色是绿色?
添加筛选器会对我的可视化项产生怎样的影响?
以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟!
Tableau 如何聚合视图中的数据?
此部分中的主题涵盖回答这些问题的概念,以帮助你理解 Tableau 为什么会这样做。
1.构造用于分析的数据
对于了解数据准备以及如何构造用于分析的数据,有一些概念至关重要。数据可以采用各 种各样的格式生成、捕获和存储,但是在分析时,并不是所有的数据格式都是相同的。
数据准备是将格式良好的数据放入单个表或多个相关表中以便在 Tableau 中进行分析的过
程。这包括结构( 即行和列) 以及数据清洁度的各个方面,例如正确的数据类型和正确的数 据值
2.结构如何影响分析
你可能无法控制数据的结构。本主题的其余部分假定你有权访问原始数据和塑造原始数据 所需的工具,例如 Tableau Prep Builder。但是,在某些情况下,你可能无法根据需要转置或 聚合数据。通常仍然可以执行分析,但你可能需要更改计算或者处理数据的方式。有关如何 使用不同数据结构执行相同分析的示例,请参见 Tableau Prep 日常生活场景:Tableau Desktop 中包含第二个日期的分析。但是,如果你能够优化数据结构,可能会使你的分析 更加容易。
3.数据结构
Tableau Desktop 最适合处理表格格式类似电子表格的数据。也就是说,数据存储在行和列
中,列标题位于第一行。那么,什么是行或列?
3.1什么是行?
行( 或记录) 可以是任何内容,从零售商店交易信息到特定地点的天气测量数据,或者有关 社交媒体帖子的统计信息。
了解数据中的记录( 行) 表示的内容非常重要。这是数据的粒度。
提示:最佳做法是使用唯一标识符,该值将每一行标识为唯一的数据段。把它想象成社会保 险号或每条记录的 URL。在 Superstore 中,这将是“Row ID”( 行 ID) 。请注意,并非所有数据 集都有 UID,但拥有 UID 也无妨。
尝试确保可以回答“数据集中的行代表什么?”问题。这与回答“‘TableName(Count)’字段代表 什么?”是一样的。如果无法清楚地说明这一点,则数据的结构可能较差,无法进行分析。
4.聚合和粒度
与构成行的内容相关的概念是聚合和粒度的概念,它们是一个范围的两端。
4.1聚合
指的是多个数据值是如何组合为单一值的,例如对所有针对南瓜香料的 Google 搜索 进行计数,或者取西雅图附近某一天所有温度读数的平均值。
默认情况下,Tableau 中的度量始终是聚合的。默认聚合为 SUM。你可以将聚合更改 为“平均值”、“中值”、“不重复计数”、“最小值”等选项。
4.2粒度
是指数据的详细程度。数据集中的行( 或记录) 代表什么?疟疾患者?一个省当月的疟 疾病例总数?这就是粒度。
了解数据的粒度对于使用详细级别 (LOD) 表达式至关重要。
理解聚合和粒度是一个重要的概念,原因有很多:它会影响查找有用的数据集、构建所需的 可视化项、正确地关联或联接数据以及使用 LOD 表达式等操作。
5.什么是字段或列?
表中的一列数据作为数据窗格中的字段进入 Tableau Desktop,但它们本质上是可互换的 术语。( 我们将术语“列”保存在 Tableau Desktop 中,以供列和行功能区使用,并用于描述某 些可视化项。) 数据字段应该包含可以分组成更大关系的项目。项目本身称为值或成员( 只 有离散维度包含成员) 。
给定字段中允许的值由字段的域确定( 请参见下面的注释) 。例如,“杂货店部门”一栏可能包 含成员“熟食店”、“面包店”、“农产品店”等,但它不包括“面包”或“意大利香肠”,因为这些是项目,不是部门。换句话说,部门字段的域仅限于可能的杂货店部门。
此外,结构良好的数据集将有一个“销售额”列和“利润”列,而不是单一的“资金”列,因为利润 是一个与销售额分开的概念。
“销售额”字段的域将为大于等于 0 的值,因为销售额不能为负数。
但是,“利润”字段的域将是所有值,因为利润可能为负。
注意:域也可以表示数据中存在的值。根据这个定义,如果列“杂货店部门”错误地包 含“意大利香肠”,那么该值将在列的域中。这些定义略为矛盾。一个是可能或应该存 在的值,另一个是实际存在的值
6.对字段进行分类
数据表中的每个列都作为字段进入 Tableau Desktop,该字段将显示在“数据”窗格中。
Tableau Desktop 中的字段必须是维度或度量( 在“数据”窗格中由一条线分隔) 以及离散字 段或连续字段( 颜色编码:蓝色字段为离散字段,绿色字段为连续字段) 。
维度是定性的,也就是说它们不能被测量,而是被描述。维度通常是城市或国家/地
区、眼睛颜色、类别、团队名称等。维度通常是离散的。
度量是定量的,这意味着可以使用数字测量和记录它们。度量可以是销售额、高度、
点击数等。在 Tableau Desktop 中,度量值将自动聚合;默认聚合为 SUM。度量通常是 连续的。
离散的意思是单独分开或不同。丰田有别于马自达。在 Tableau Desktop 中,离散值 作为标签进入视图,并创建区。
连续意味着形成一个完整的、连续的整体。7 后跟 8,然后与 9 的距离相同,7.5 介于 7 和 8 之间。在 Tableau Desktop 中,连续值作为轴进入视图。
维度通常是离散的,度量通常是连续的。然而,情况并不总是这样。日期可以是离散,
也可以是连续的。
日期是维度,并且自动以离散的形式进入视图( 又称日期部分,如“八月”,它考 虑的是“八月”这个月份,而不考虑其他信息,如年份) 。应用于具有离散日期的 时间线的趋势线将分成多条趋势线,每个区一条。
如果愿意,我们可以选择使用连续日期( 也称为日期截断,例如“2017 年 8 月”, 与“2018 年 8 月”不同) 。应用于具有连续日期的时间线的趋势线对于整个日期轴 将只有一条趋势线。
在 Tableau Prep 中,对维度或度量不作任何区分。但是,了解离散或连续背后的概念对于了 解配置窗格中数据的详细信息与摘要表示等内容非常重要。
详细信息:详细信息视图将每个域元素作为离散标签显示,并具有可视滚动条,以提供 所有数据的可视概览。
摘要:摘要视图将数据以分桶方式显示在连续轴上,显示为直方图。
6.1分桶和直方图
像年龄或薪水这样的字段被视为是连续的。34 岁和 35 岁之间有关系,34 岁离 35 岁就像 35岁离 36 岁一样远。然而,一旦我们过了 10 岁左右,我们通常就不会说诸如“9 岁半”或“7 岁 9 个月”之类的话。我们已经按照整齐的以年为单位的增量对年龄进行了分桶。12,850 天大的 人比 12,790 天大的人更老,但我们划定界限,说他们都是 35 岁。同样,年龄分组通常用来代 替实际年龄。电影票的儿童价格可能适合 12 岁及以下的儿童,或者调查可能会要求你选择 你的年龄组,例如 20-24、25-30 等。
直方图用于通过分桶来可视化数值数据的分布。直方图类似于柱状图,但是组成直方图的矩 形并不是各个条形的离散类别,它们跨越了一个连续轴数据桶,例如花的数量的范围( 0- 4、 5 - 9、10 -14,等等) 。矩形的高度由这些值的频率或计数确定。在这里,y 轴是放入每个数据 桶中的植物的计数。七株植物有 0-4 朵花,两株有 5-9 朵花,43 株有 20-24 朵花。
在 Tableau Prep 中,摘要视图是分桶值的直方图。详细信息视图显示每个值的频率,并在旁 边有一个显示数据总体分布的可视滚动条。
6.2分布和离群值
查看数据集的分布有助于离群值检测。
分布:直方图中数据的形状,尽管这取决于条形的大小。能够在直方图视图中查看所 有数据,有助于确定数据是否正确和完整。只有在了解数据并可以解释分布是否有意 义时,分布的形状才有用。
举例来说,如果我们查看 1940 年至 2017 年宽带互联网家庭数量的数据集,我 们会看到一个非常倾斜的分布。但是,如果我们查看 2017 年 1 月至 2017 年 12
月宽带互联网的家庭数量,我们预计分布将相当均匀。
如果我们看一下 Google 搜索“南瓜香料拿铁”的数据集,我们预计在秋季会出现 一个相当尖锐的峰值,而搜索“将摄氏度转换为华氏度”可能会相当稳定。
离群值:与其他值相比的极端值。离群值可能是正确的值,也可能表示错误。
某些离群值是正确的并指示实际异常;不应移除或修改这些值。
某些离群值表示数据清洁度问题,例如工资为 50 美元而不是 50,000 美元,因为 键入了句点而不是逗号。
7.使用分布直观地检测离群值
乍一看,它看起来并不奇怪。但是,如果不是一个标签列表,而是绘制在一个连续的分桶轴
上,它看起来会是这样的:
更明显的是,最后一个观测值离第一个观测值更远,并且由于误差而可能是一个离群值。
以上是关于Tableau可视化分析实战系列Tableau基础概念全解析 -数据结构及字段的主要内容,如果未能解决你的问题,请参考以下文章
Tableau实战系列Tableau基础概念全解析 -万字长文解析数据类型及数据集
Tableau可视化分析实战系列浏览 Tableau 环境 -功能区和卡参考
Tableau可视化分析实战系列浏览 Tableau 环境 -视图的部件
tableau实战系列(四十七)-Tableau快速生成可视化视图