其实,数据分析就一个套路!

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了其实,数据分析就一个套路!相关的知识,希望对你有一定的参考价值。

经常看数据分析类的文章的同学都知道,我们往往能通过种种数据去揭露一个事实,而不是泛泛而谈,因为数据是不会说谎的。

一直有同学反馈:每每看到各类数据分析的文章,又是用Python,又是用R,还有其他好用的工具,心里觉得痒痒,不知道如何上手,如何有套路地去分析。

其实,你们看到光鲜亮丽的分析图表其实是次要的,只要能达成目的,各类工具都是一样的,无论excel还是R,分析的重点应该在于idea和思路。撇开哪些成套成套的理论,其实数据分析的套路(土办法)就那么一回事儿。

01.确定问题

首先,应该明确自己要分析的问题,比如说:

  • 鉴定淘宝上的某个商品是否有刷单行为

  • 鉴定华为的 P10 门有没有请水军来公关

  • 国产电影的整体质量近年是否在降低?

02.数据来源

现在我们已经知道了我们要去研究怎样的问题了,下一个很重要的问题就是数据来源哪里?抓怎样的数据?抓怎样的数据可以帮我我们解释我们提出的待分析的问题。

比如说我们想研究国产电影的整体质量近年是否在降低,那我们就要想:电影的质量是否可以量化?哪里可以有这几年的国产电影的数据?显然,豆瓣电影已经帮我们做到了这一点,于是我们只需要去把豆瓣的国产电影评分等信息全都提取出来即可。

又比如我们想研究淘宝的某个商品是否存在刷单行为,那我们就要想:刷单的行为有什么特征?显然,刷单的商品评论正常都会出现:短时间内突然出现超多商品评论,并且这些评论可能有很多是一样的内容。明确这一点,我们只需要去把这个商品的所有平均数据都提取出来。

通过上面两个例子,你应该会发现:IDEA很重要,要分析怎样的问题,数据来源哪里,因此通常第一步第二步是最重要的。

技术分享

如何训练这种IDEA?我的建议是:多看看别人的数据分析的文章,如果可以的话强烈建议你经常性的做头脑风暴,尤其是你无聊无事可做的时候,我经常用来打发时间。

03.数据抓取

上一步已经确定了数据来源,巧妇难为无米之炊,有了数据我们才能进行分析,所以紧接着我们就要做数据采集。怎么爬数据?学习Python确实要一段时间,不妨考虑网上付费的爬虫软件,或者付费找知乎上的大V爬。

04.数据可视化

如果说确定问题是一个婴儿的雏形,那么数据就是他的身体内部构造,而可视化就是他的外表,可视化决定着这个婴儿的外貌,决定着别人是都喜欢你的可视化结果。

那么,如何做可视化?

如果你对Excle比较熟悉,并且你的可视化并没有涉及到太复杂的功能,那么我推荐你使用Excle自带的图表功能。

如果你想要你的图表绚丽多彩,不妨试一试百度的唯一一款良心产品Echarts,图表多样并且灵活性很大,做出的也比较好看。

技术分享

最后推荐一个我经常在我文中出现的BI数据分析工具——FineBI,数据导入读取字段便可以随意分析,这个虽然是商业工具,但好在个人使用免费,但作为一个数据平台工具,个人觉得在企业的应用更广。

技术分享

05.再说一点

有很多同学说,不知道怎样的问题可以用数据来解释,怎样的问题无法用数据来解释。对此,我有一个建议:可以先抓取一些数据,对这些数据进行清理之后直接扔到 FineBI 里面"玩一会",你会发现一些有意思的东西。

数据分析重点在IDEA,而这些IDEA是要经过不断的学习和思考的.


以上是关于其实,数据分析就一个套路!的主要内容,如果未能解决你的问题,请参考以下文章

四步详解数据分析套路

数据分析思路的套路攻略

数据分析思路的套路攻略

高并发解决套路

转载找到上帝的两种套路 – 聊聊统计学习和机器学习

转载找到上帝的两种套路 – 聊聊统计学习和机器学习