数据分析商业智能
Posted 柳小树
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析商业智能相关的知识,希望对你有一定的参考价值。
文 | 柳猛
【导语】我想利用这篇文章,来系统总结一下自己在数据分析领域所学信息,避免将来忘了,也和大家分享,共同探讨。
我是数据方面的小白。以下内容更多倾向于搜集来的信息整理,并非个人技术分享,数据大牛对这些东西并不会陌生,可以绕道了。但是如果你有以下几种困扰,建议阅读。
如何用数据可视化吸引客户与老板?
现在有哪些炫酷的图表?
那些炫酷的图表是用什么工具做的?
文中图表出处已注明,如有侵权,请联系删除。
1. 什么是数据分析
数据分析早就是比较老的一个话题,从互联网到移动互联网,数据分析对商业的贡献价值越来越大,零售行业对数据分析的需求大增。现如今最热的大数据,也是人工智能的基础条件之一。早前的数据分析,由于数据量小,更多的是小范围的数据报告。而大数据,就是通过抓取海量数据,完成一个现象型的分析并得出有价值的预测信息。
数据分析是一门非常专业的学科,也一门跨所有领域的学科,无论金融、制造、设计、研发甚至个人生活,都可以涉及并且利用好数据。
以下我的个人理解没有基于任何现有的学科理论基础,仅供参考。
数据分析重要吗?随着经济与互联网时代的发展,人与人之间,人与物,物与物之间的互联频率越来越多,数据盘子越来越大,也更加的复杂。面对复杂的数据,如何总结出规律,如何把数据进行可视化以更快更准的做出决策,如何利用数据解决日常问题,这不仅仅是一门科学,更是一种艺术。商场的流量数据分析有助于细分铺位更合理的收取租金,地铁刷卡数据可以更好的帮助城市管理者决策等等,都是数据分析利用的领域。
很多时候,我们知道存在问题,但是不知道出在哪里。我们需要数据来验证,但是却不知道怎么得出数据。所有的这些,不仅仅是会技术会编程就可以解决的,技术只是手段,更重要的是如何运用这些手段得到数据,分析数据,可视化数据。比如我们想统计北京市的真正人口数,有什么方式?很多人想到的是人口普查,但这肯定不准。还有什么方式?假如我们统计北京市每个月食盐的消费量,和其他食物的消费量,进行互相验证得出一个平均值,就是一个比较准确的手段。
数据分析好玩吗?国外有一个很有意思的网站,Tylervigen, 是来分析数据相关性,比较两种互不相干变量之间的规律(Correlation does not imply causation)。比如下图这个,每年掉进游泳池淹死的人数,和尼古拉斯凯奇出演电影的数量有惊人的一致性。
每一个数据分析都可以看做非常好玩的游戏。从分析需要哪些数据,到抓取数据,到处理数据,再到可视化数据,这一系列的过程,就和刑侦警察抽丝剥茧一步一步抓到罪犯是一样的。
什么是数据分析?简单讲就是基于数据进行分析。首先要有数据,这是基础。而数据分析就是要从数据当中得出规律,用来验证某个结论或者得出结论。通过数据,不仅可以得出结论,也可以分析现象下的本质或根本原因。
数据分析的过程,就是解决这么几个问题的过程:
需要哪些数据
如何得到数据
如何整合数据
如何可视化数据
2. 需要哪些数据?
需要哪些数据是数据分析最关键步骤,也是最有价值的部分。其他所有的步骤,都可以通过技术手段来解决,但是这第一步不行,要了解业务,不仅了解单一业务,要了解业务生态链。
哪些数据能用,哪些数据才能准确验证结论,得出结论,进行预测。这需要很强的逻辑思维,数据架构等其他能力。如果这一步能判断准确,这个人可以说是非常聪明(Smart)且资深了。
比如想得出更准确的北京市人口,靠人口普查是很费工费时不准确的。还有什么其他方法?比如官方数据显示,北京人口是要少于上海人口的,但是如果通过比对两个城市的中小学生数量,日用品消费量,垃圾数量等等互相验证,会发现北京人口数量比上海应该是高的。如果小黄车要布局单车,就可以有理由在北京布局更多了(当然现实中可能有更简单或更复杂的决策方式,比如使用支付宝和微信钱包的人口数量,这里只是举个例子)。
看似不搭界的数据之间相互验证,是一件非常有逻辑,侦查性非常强的有趣的事情。
3. 如何得到数据?
这是所有数据分析行为的第二个难题。
对于企业内部事务的分析,一般数据来源比较清楚,每个业务模块都有对应的系统,而报告是每个系统的基本功能。比如运营/财务方面就是公司的ERP系统或者其关联的data warehouse。人事方面有人事方面的系统,IT有IT的系统等等。
对于企业外部因素的分析,一般数据来源不明确。比如市场环境分析包括竞争对手,客户群,选址等等。我能想到的有以下几种方式:
政府官方公开来源。比如北京统计局官网,可以得到关系国计民生的一些数据,其他政府分支机构企事业单位等等政府数据,这些数据可以借助参考分析。但是,我虽然没有实际经验,但是要指出的是,政府数据一定要注意灵活对待。
企业公开数据。比如上市企业都有公开的财务信息。财务信息比较复杂,需要具备一定财务基础的人员来进行判断,比如三大报表中利润表并不能说明什么问题,而现金流量表就比较能客观反映企业运营状况。
爬虫技术。这是现在技术圈最流行的海量数据获取方式,利用Python程序代码,钻取已有的海量数据。比如爬虫技术可以得出大众点评上所有商家的详细信息,可以得到所有微博账户的信息等等。通过爬虫得到的数据再进行脏数据清洗,就可以得到自己想要的东西了。
其他技术。如果你得到一个柱状图的图片,很想在自己的PPT里使用这个图,但是插入图片不清楚,应该怎么处理?这个时候你可以从图片转成PPT。但是如果你想使用图片里的数据该怎么办?没关系,有神器Webplotdigitizer。这个神器会帮助你把图表转化成数字。这个将来可以详细介绍,或者请移步搜索。
积累。有些数据不是一朝一夕就可以有的,需要有心人长期的积累。这种数据如果有价值,是非常宝贵的。
最笨的办法。如果技术确实(极尽所能)达不到或者技术成本太高,就只能用看起来最笨的方法来实现了。比如想统计某红绿灯下通行车辆数,就直接数数吧。
4. 如何整合这些数据
我们在excel表中对数据进行V-lookup就是一种清洗整理过程。当数据量巨大,非常复杂的情况下,简单的V-lookup不够用,需要使用VBA/函数/Access/数据库语言进行整合提炼。
数据整合清洗也是一项复杂的过程,相信很多人都经历这种情况:大量的数据分布在不同的表格,有不同的格式,每列标题不标准,每个表数据规则不同等等。文章后面介绍的R语言、Python也都是可以用来清洗数据的工具。
5. 如何可视化这些数据
在下文中,我将通过以下几部分进行数据可视化的总结。
5.1 数据分析所用的语言
5.2 数据分析图表的类别
5.3 数据分析BI工具
好,接下来详细看一下:
5.1 数据分析所用的语言
我本人对语言方面了解的非常少,还在学习阶段。在这里只做一些简单的介绍,在接下来的时间,我也会利用业余时间学习语言相关内容并且和大家分享从0开始学习的过程,争取尽快学会其中一种。
R语言
R是一门免费,开源,用于统计计算和作图的语言,它不单是一门语言,更是一个数据计算与分析的环境。统计计算领域有三大工具:SAS、SPSS、S,R正是受S语言和Scheme语言影响发展而来。
R语言功能丰富,可以用来分析、挖掘、爬虫、算法等等。
SQL
是专门用来进行数据库查询和结构化设计的语言,主要用于数据库的搭建。入门的话推荐书籍《SQL必知必会(第四版)》。
Python
Python是现在最热的计算机语言。几乎被互联网程序圈的人认为无所不能,除了可以做数据分析中的分析爬虫等,还可以搭建网站,知乎就是基于Python语言搭建的。
5.2 数据可视化图表的类别
对于可视化来讲,我认为最重要的就是需要了解什么样的图可以更准确直观的展示数据信息。要做到心中有图。
那么除了我们熟悉的最基本的线/柱/饼/气泡图表,市面上还有哪些可视化图表可以选择呢?
我这里列举一些看起来比较高级的可视化图供参考。一般来讲90%的图表都是由线/柱/饼/气泡衍生出来的。
柱状图&折线图
柱状图、折线图及其衍生图,应该是我们最常用的两个可视化图表类型了。即使在Economist的文章以及管理咨询三巨头MBB的报告中,使用频率也是最高。大家尽量避免使用其他特别复杂难理解的图表,因为很多图表,光是给客户解释图表本身就需要很多时间。当然了,有些时候为了忽悠住客户,让他觉得钱有所值,高大炫酷的图表也是必须的。
折线图主要表达时间轴上的趋势变化,最典型的是股市K线图。柱状图表达不同类别的差异。
折线和柱状图可以衍生出很多,堆积柱/进度柱等等。这种图因为特别常见,所以在使用的时候,如果想吸引眼球,一定要多用心思在颜色和排版上。可以使用公司模板的配色,也可以模仿Tableau/咨询公司/the Economist等的配色排版。
树形图
在数据量比较大,分类多样的情况下,可以考虑使用树形图。由于他非常直观,颜色差异多的特点,在PPT中呈现出来会非常的吸引眼球。
直方图
直方图用来表达若干个区间内数据的分布密度,比如学生成绩优良中差四个区间的分布人数。分为正常形态(中间高两头低)和很多种异常形态,下图就是一种异常形态,成绩差的人数过多,说明考试内容太难。
桑基图(Sankey)
也叫流量结构分布图,在互联网零售行业的分析报告中非常常见。用来分析流程点之间的流量转化率。比较容易理解的例子是地铁站,比如想汇报北京地铁13号线各站早高峰去往各个目的站的人数,可以用桑基图来显示。
地图
在互联网零售行业,地图在数据分析中的使用频率超级高。原因就是客户和销售人员分布范围广而且还有地点的规律可循。比如哪类消费人群分布在哪里等等。
基于地图的图,常见的有以下几类:
热力图。用来粗略展示分布密度。
当然了,热力图也可以不基于地图,以下是也是一种热力图,颜色越深代表值越多。这种热力图完全可以很轻松的用Excel的条件格式来实现。
移动轨迹地图-GIF动图。用来表现地图上的动态移动过程,方向等。
海量点状图:这种图的灵感我猜测来源于下图城市夜晚灯光分布。点越多越密就是经济发达地区。
以下这张图展示了非常丰富的图表类型及名称,大家可以各取所需。
这些图怎么画出来呢?这个大家可以在自己需要的时候自行搜索。现在的可视化工具竞争白热化,可以无所不能的展示这些图。
5.3 数据可视化BI工具
商业智能公司开发了很多的BI工具,用来实现数据的可视化。此类公司如雨后春笋,我一个数据方面很专业的朋友,也开了一家公司,叫维析科技,专业做数据流程可视化。
这些企业的共同点,就是都来解决数据的可视化,除了制作各种类型图表,还可以通过Dashboard仪表盘,动态显示数据。Excel做出来的表,当表做成的时候,就已经不是最新的了。但是仪表盘的特点是可以随时更新数据,只要和数据库关联,实时数据图表就可以表现出来。
下面介绍几款企业级数据库可视化工具。
数据观
这是国内一款比较好用的商业智能工具。可以免费试用一个月,该工具按照account收费,3600 RMB/ID/Year,这价格对于企业来讲是很便宜了。
Tableau
鼎鼎大名的Tableau是目前商业智能领域的老大哥。在Gartner发布的BI商业智能和分析平台魔力象限报告中,
Gartner Reprint www.gartner.com
Tableau连续几年稳居第一。点击链接可查看该报告。其在搜索网站的搜索量甚至是竞争对手的十倍之多。不过其价格也比较昂贵,最便宜的也要999美刀一年。学生的话可以通过上传证明获取免费版。
Tableau官方网站上有很多培训视频,而且也开始走认证之路,用户可以申请获取官方认证。由于是企业级应用,Tableau在数据圈外的知名度不是很高。我的一个朋友,远程面试一家澳大利亚企业,他演示了Tableau的使用,对方大呼过瘾,面试完就立刻把offer发了过来。
通过官方视频,可以学会基本的Tableau的使用。主要也是因为它不难,有人对比过微软Office Excel的数据透视表和Tableau的区别,可以明显的看出,Tableau就是基于Pivot table发展起来的。可惜的是,微软在商业智能方面发力较晚,虽作为鼻祖,却落后于Tableau,不过近年发力了,从魔力四象限报告可以看出已经在迎头赶上了。
Microsoft Power BI
所以接下来就要说说Excel了。Excel是数据分析可视化的鼻祖。近些年,微软基于Excel开发了Power BI的一系列插件。在网易云课堂上,有关于Power BI 的培训使用,点击链接可直接进入。
Power BI 的逻辑如下,分不同的功能组件:
Power Query。是负责抓取和整理数据的,它可以抓取几乎市面上所有格式的源数据,然后再按照我们需要的格式整理出来。
Power Pivot。用来创建数据之间的连接,可以取代Vlookup。
Power View。
Power Map。
Celonis
德国Celonis公司与大企业合作,推出了Dashboard产品。这款产品的最大优势在于基于数据的流程挖掘。整个供应链的P2P和O2C的每一步骤,都可以动态静态的展示出来。每个环节的cycle time,rework activity都很直观。
企业级应用需要关联企业数据库,对于我们个人日常的数据可视化帮助不大。下面再介绍几款可以帮助我们日常工作数据可视化的工具。
Canva
Canva是一款图片处理工具,可以用来美化照片。它同时是一款比较好的信息图工具,有现成的模板可以用来创建信息图。虽然日常工作用到信息图的情况很少,但如果哪天需要宣传项目,信息图是很好很直观的宣传方式。
Excel
Excel是非常强大的工具,借助VBA、函数,可以实现很多不可思议的数据分析。这个可以在用到的时候自行搜索。总之,不要让技术手段限制了你做出优美图表的意愿。
BDP个人版
BDP这类工具的特点就是无需写代码,免安装,通过透视图一样的数据拖拽,就可以实现数据可视化。其个人版还承诺永久免费。
除了普通的折线图柱状图饼图,BDP可以绘制桑基图,漏斗图,词云,热力地图,动态移动轨迹地图等30多种,使用方式很简单。
其他这种工具有很多,大同小异各有优缺点。建议大家可以熟悉其中一种,当这种有限制的时候就考虑另一种。
其实,当你具备了干净的数据,可视化最重要的是要熟悉各种图表。只要做到心中有图,在搜索引擎检索“如何制作某某图”就可以了,这个行业竞争太激烈,网上到处都是各家的教程。根本不用担心工具的使用。
总结
在网上可以看到很多人热衷于数据可视化,但其实我并不看好,类似于BDP这种工具,已经很大程度上不需要编程也可以实现可视化。此类工具的竞争,使得技术门槛越来越低,未来数据分析领域,最有价值应该还是对于业务的理解深度与广度。至于如何可视化,有的是各种办法。
先写到这里。篇幅有限,很多地方网上都可以找到材料,写的不深入,有兴趣的朋友可以搜索,我也会在接下来的时间继续学习并且总结。
【原创声明】本文除图表外均为原创,转载其他媒介请注明作者与出处。商业用途严禁转载。
以上是关于数据分析商业智能的主要内容,如果未能解决你的问题,请参考以下文章