数据分析指北 - 附录一(数据分析工具漫谈)

Posted 数据分析指北

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析指北 - 附录一(数据分析工具漫谈)相关的知识,希望对你有一定的参考价值。

这期闲聊下工具以及一个小案例,下期接着聊基础数据分析。

数据分析指北 - 附录一(数据分析工具漫谈)

聊两句数据分析相关软件, 以及本系列中要使用的工具.


历史回看:

简单介绍了数据所有者的情况以及数据工程师都在做什么的事情。

方法论 之 问题的解,科学方法,以及 然后呢?

有必要搞清楚数据的原始出处以及大致轮廓(分布)。

计算机是怎么处理表数据的,以及一些小学数学题?


Photo by Kelvyn Ornettte Sol Marte on Unsplash

  • 数据分析工具简单分类

  • 一个案例

  • KNIME

数据分析工具简单分类

任何一个理工科背景的人,或多或少都接触过数据分析类的工具。(文科班的同学,欢迎入坑。)

数据分析类的工具,大致分为三类。

第一类的重点在于记录,不在于分析,比如Excel和数据库都归入此类。也许你能够写一些VBA对Excel中的表格进行一些基础操作,或是写一些SQL语句对数据库中的数据进行统计,但总归可扩展性有限;
第二类的重点在于分析,比如SAS,SPSS,Lingo,Orange,Knime,Pentaho,Rapidminer,Weka,R,Matlab,Python相关的工具,甚至Linux中的命令,sed,awk,都相当灵活,这些工具有一些是开源的,有一些是收费的,复杂度也各有差异;
第三类的重点在于展示,可视化。近些年流行起来的工具在这一方面都做的不错,比如Tableau,PowerBI,QlikView或是一些数据面板等。

这三类并不是完全割裂开的,而是各有重点,互相渗透。但具体到使用什么工具,完全看你想达到什么目的。

一个案例

前一阵有朋友问我微软的PowerBI和Oracle hypersion or TM1有什么区别,他查了一下,没有看出太懂。Oracle家的东西虽然我不清楚–但那不重要,如果别人问出了这样的问题,那么肯定是他没有理解自己真正的问题。

为什么我会这么说,主要原因在于:如果朋友已经理解了自己的需求,那么关于软件的对比,只需要搜索一下就好,以以上的具体问题为例,搜索“powerbi vs oracle hypersion”肯定能找到答案。但他看了对比的文章,看不懂,那么就说明,他看到的不是他问题的答案,反过来说,他的实际问题不是刚问我的问题。(关于问问题请回顾 

(朋友在国外做金融模型,所以下面节选的对话中夹杂了一些不中不英的内容,对对话中具体工具不了解完全可以跳着看,不影响理解)

Sarah:
主要能处理不同系统出来的数据,通过自动做mapping 或data cleaning 来生成想要的report 或dashboard

HaveF:
其实你想一想,这是一个非常general的topic
里面涉及到的内容比较多,处理不同系统出来的数据,叫做Data Integration,data cleaning又涉及到data quality
分析又是data management or analytics
没有通用的平台,只有适合你的平台,需要自己调研
我只能提供方向,具体还得你看哪个适合你,私有云和公有云又是不同的解决方案
如果是特定细分领域的又要看特定细分领域的工具
需不需要编程,上手难度怎么样,扩展性怎么样,对于大数据平台的支持情况怎么样,执行效率是否能接受,都需要按照自己的情况具体考量

数据分析指北 - 附录一(数据分析工具漫谈)

各种数据工具

Sarah:
面临主要问题是做一个分析员工效率及成本的dashboard. 但分析所需的data source from different systems. 我可以实现用power BI 把数据导进来形成最后的dashboard. 但因为system 之间无connection, 如何做到时时监控更新我的dashboard
我不能每次新数据出来,还要重新系统里导出,refresh my financial model

HaveF:
对于你这个case,自动化导出流程是最实际的方法
但,你这不是已经通过power bi把各系统连接起来了吗

Sarah:
但是不能时时看更新了的dashboard. 比如说下个月又要去各系统export data source, 再导到power BI 生成新月份的dashboard 结果。
我说的时时,就是每时每刻由于企业系统数据都在变,随之我的dashboards 跟着随时变
Power BI 主要是可以import 比如几个excel worksheet or word file 进来进行整理
我知道了,各系统可以和excel 通过写query 建立联系。我所有data source 是excel format 就好

HaveF:
power bi可以直接接数据库吧?Excel这一步似乎多余了

Sarah:
真的?
就是能接就太棒了
接数据库是要专业IT写个程序么

HaveF:
如图,power bi是可以直接连数据库的

数据分析指北 - 附录一(数据分析工具漫谈)

power bi 连接数据源

你的excel是从哪里导出的
谁负责,就问谁,连个数据库很快的,不需要专门写程序

Sarah:
明白了
行,我知道了,谢啦


朋友本来以为这个事情可能会比较复杂,结果最后没想到解决方案会这么简单(当然知道怎么解决问题需要时间积累,但更为重要的是要理解真正的问题)。

有这么一句古老的箴言:

如果你手里有一把锤子,所有东西看上去都像钉子。

当你遇到一个问题时,先别急,先别急着找锤子。也需你真正需要的不是锤子,而是一把螺丝刀。锤子虽好,也可能能解决你的问题,可你不一定能买起呀。

Photo by Sidney Pearce on Unsplash

KNIME

本系列中,重点要使用的工具叫 KNIME(/naɪm/,和knife一样,k不发音),它是德国康斯坦茨大学开发的一款功能强大的免费的开源分析工具。他有一些功能需要花钱单独授权,但免费的功能已经让我觉得够强大了。

今天的作业是,找到这款软件,下载并安装,Win,Mac,Linux版本都有。

回头聊

反馈,转发或赞赏?


以上是关于数据分析指北 - 附录一(数据分析工具漫谈)的主要内容,如果未能解决你的问题,请参考以下文章

从一个SQL打印全年日历漫谈数据仓库中时间操作场景的重点写法

漫谈工业大数据9:开源工业大数据软件简介(上)

Oracle附录——连接数据库

tar命令基本进阶使用指北

[数据库]漫谈ElasticSearch关于ES性能调优几件必须知道的事(转)

架构漫谈 - 数据治理核心思路及解决方案探讨