Tableau Prep经验总结
Posted liuzhiqiang66
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Tableau Prep经验总结相关的知识,希望对你有一定的参考价值。
Tableau Prep经验总结
Tableau Prep定义
Tableau Prep是tableau家族的数据准备工具。我们进行数据分析时,有时拿到的数据无法直接用于数据分析,这是因为1、我们对数据的形状和结构不是很了解;2、可能存在一些脏乱数据(如:空值,异常值等);3、我们需要提前完成(如:数据规划,指标量化,显示指标转化)等工作。这三个操作都是数据准备,一个数据准备工作的好坏直接影响了数据分析的结果。
Tableau Prep特点
1、去IT化:零学习成本完成数据提取、清洗、组织流程,容易上手。
2、可视化:直观展示数据准备过程,操作及处理的数据结果随时可见。
3、集成化:与Tableau Server和Desktop对接,自动完成数据准备工作。
使用Prep的原因
对数据库开发人员
1、更方便的了解数据集的整体状况,制订数据清理步骤。因为要进行数据清洗,我们首先需要了解这个数据表的结构,有多少字段,有多少行,每个字段的NULL值情况,空字符串情况等等。
2、更直观地向需求方展示数据开发逻辑,改善沟通成本。
3、便于随时回溯开发思路和检查问题,节约时间成本。因为如果采用SQL写一个复杂的储存过程时,过了一两个月,需要修改或增加数据时,可能一时半会忘记自己的书写逻辑。
4、更便捷的自动运行计划和Tableau集成。
对数据分析及报表开发人员
1、获取数据更精准,节省返工浪费的时间。因为做数据提取时,很大一部分工作量是发生在数据分析人员和数据库管理员的沟通方面;此时借助Prep的话,数据分析人员可以自己从数据库提取数据,自己开发论证的数据流,往往获得的数据更加精准且更加灵活(如一些行业,看到每天的充值人数及充值总额中有异常值,如果想获得明细数据,以往需要找数据库管理员,有了Prep后便可以自行查找,节约时间。)
2、获取数据更灵活,减少二次开发时间。
3、减少数据加工和清理时间,提高报表运行效率。
对非技术人员
1、更轻松的处理办公表格,提升工作效率。
2、自助式数据分析文化,人人都是分析师。
财务部门是使用prep最多的部门,财务部门是最多线下表的,需要从线下数据拉表,表与表之间做关联关系,做一下透视等等,可以将一些共性的工作表提取出来并做成工作流来自动运行。
Prep能做什么
一、可以连接数十种数据源:(1、可批量读取excel、文本文件、CSV等文件数据源;2、轻松访问mysql等常用数据库;3、提供数十种数据源支持)。
二、轻松完成数据准备:(1、强大的数据清理功能;2、拖拽式操作完成多表合并;3、轻松完成行列转置;4、内置Tableau计算公式功能;5、可外接Python和R脚本等扩展功能)。
三、操作直观可见:(1、提供分布数据预览;2、提供数据集描述;3、所有操作步骤一览无余)。
四、强大的输出功能:(1、数据保存形式多样;2、Tableau可直接调用;3、集成入Server,自动运行)。
Prep操作界面
准备好需要做数据清洗的数据表,点击+号将数据表添加进来,然后可以借助设置按钮,多个文件按钮,数据样本按钮或在字段前面的类型栏目下对数据进行修改配置及控制数据量的多少及启用增量刷新来提升效率等等操作。
Prep总体数据流处理步骤
Prep整体工作的数据流是从左到右依次进行的,其中的数据处理操作包含:1、清理步骤;2、新行;3、聚合;4、转置;5、联接;6、并集;7、脚本;8、预测;9、输出。通常拿到一个数据表的第一个数据处理是清理步骤,最后是输出为excel或数据库等等。
数据清理步骤
一般拿到一个表后,为了先了解表结构,点击表后面的+号即可创建一个清洗步骤,然后就可以对数据表进行清洗操作。注意:数据清理步骤是Prep使用最多的一个操作,通过这个操作可以完成所有对数据表行元素(如进行筛选减少数据量)和列元素(即字段)处理的操作。对每个字段的下拉框就包含了可以进行的清洗操作,每个操作均会显示在左边的更改数下面,另外还可以找到对应表的主键:如下图中每个字段后面的数字代表字段包含哪些唯一值,由此确定主键为“行ID”字段。
注意:数据清理步骤主要针对行元素和列元素进行操作。
排除NULL
移除null值,找到null后,右键勾选排除即可完成清理null的数据处理操作。
将值分组
将值分组主要应对于:同音字打错了或无意中打错字了,导致本来是同一个类别的变成了两个类别。为了将其改回正确的分类,就可以采用将值分组功能。先选中出错的字段,即需要处理的字段,点击最右侧的三个点即可弹出数据清理步骤相关功能,选择将值分组功能,其中分组依据可以有:1、手动选择;2、发音;3、常用字符;4、拼写四种,通常采用手动选择,之后如下图所示即可对所选中的字段进行分组。
聚合操作
聚合相当于数据透视,即创建透视表一样。通过在聚合操作后面增加一个清理步骤可知:聚合就是创建了一个透视表,即生成一个新表,这个表只包含需要聚合的字段,如此处的“地区”和“销售额”两个字段,相同于写了一个SQL中的group by操作。
表的并集操作
两个表字段差不多,如一个表有十行数据,另一个表有二十行数据,借助表合并变成三十行数据的新表。
选取一个数据清理步骤后的一个表为主表,点击这个数据清理步骤右侧的+号,再将其他需要做并集联接的表拖拽到并集里面(注意:选择添加功能)。
表的联接操作
两张表行数差不多,或行数相差比较大,但是有一些值存在第一张表,另一些值存在另一张表,如学生的语文成绩是一张表,数学成绩是另一张表,两张表都有学生的学号和姓名字段,需要把两张表通过表的联接操作合在一起来展示学生的语文和数学成绩。表的联接操作包含:“内联接,外联接,左联接,右联接”等操作。主要是通过两表或多表都包含的一些关联字段进行关联的联接操作。
表的行列转置
转置操作:转置即将表进行列转行或行转列操作,基本操作和Tableau Desktop中的转置操作差不多。通过点击数据表或者清理步骤等操作右侧的+号,勾选转置即可以弹出转置相关的配置。注意Prep不同于Desktop转置的原因是Prep特别适用于多次转置的情况。
输出
所有Prep数据处理过程必有输入和输出两个过程,输出即将数据处理的结果输出保存起来供下一个环节创建报表使用。
以上是关于Tableau Prep经验总结的主要内容,如果未能解决你的问题,请参考以下文章