数据挖掘大法让你告别累成dog的日子

Posted 软件定义世界(SDX)

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘大法让你告别累成dog的日子相关的知识,希望对你有一定的参考价值。

热门下

文:何明科

本人工科本科,毕业后做战略管理咨询,其后做过股票交易员以及VC/PE投资。所工作过的机构基本都是行业内的顶尖公司,而个人表现基本都是明星级员工。


说到此处,我已经感觉到了来自于各位professional service的人士扔出来的臭鸡蛋的嗖嗖声。下图是我被臭鸡蛋砸中的样子,只是我的颜值略逊于她。




但是,我说的是真话。原因不是我业务好,而是我工具用得好、程序写得好。简单一句话总结:我是做咨询/投资里面最会写程序的,也是写程序里面最懂咨询/投资的。以下为一些亮瞎合金眼的案例——


•在咨询的日常工作中,写过一套基于VBA优化及生成PPT和连通Powerpoint-Excel-Word数据的软件,离职读MBA前被Global IT买走,因为公司给了我MBA的学费及生活费,免费给了,在公司广为流传


•在某咨询项目中,写过一套帮助某国际消费品牌基于内部海量数据来规划渠道商和代理商布局的软件,将以前需要一个sales team一整天才能完成的工作缩到一个人一小时内完成,并作为重要成果在整个亚洲推广


•在某咨询项目中,写过一套工具,实现将Excel中每天都在更新的甘特图及流程图按规定格式同步到给客户的高标准高逼格PPT中。因为这是一个新品牌车系的上市项目,流程图极其复杂,每次更新都要耗费行政助理团队整个通宵的时间,还不能保证完全正确。这套工具,解放助理不用stand-by,按时按点回家洗洗睡睡。


•在基金的日常工作中,写过一套VBA工具并结合Bloomberg接口,每日抓取目标公司的各类信息并发送日报,将一个专职助理半天的工作基本缩减到零


•在咨询/基金的日常工作中,做过无数的Financial Model,面对老板及客户的各种花式虐狗需求,根据假设算出结论或者根据结论算出假设,程序自动完成;而且Financial Model的复用性极高,而且财务三张表自动配平。(说起根据结论算出假设,这个听起来不靠谱的需求,做过这一行的同学,一定会懂啥叫用户需求)


•将咨询这种累死累活的工作,做成了朝九晚五,按我们以前老板的话说:我是在用coding做consulting。日常工作中,几个实习生或者数据分析员要花一整天才能整理好的数据,被我花半小时完成的Python或者VBA秒杀,这种案例就不多说了


如果没有上面的工具,所有从业人员的表情都是下面这样的:

          数据挖掘大法让你告别累成dog的日子


特别是遇到作的老板或者客户,从早做到晚,做到死也做不完呀:

数据挖掘大法让你告别累成dog的日子

有了这些数据大法,表情就是下面这样的了:

数据挖掘大法让你告别累成dog的日子

说到这里,我再次感觉到无数飞过来的臭鸡蛋的风声,都来自于各位编程大牛。我看到的情景如下图,扔鸡蛋的人更多了:

数据挖掘大法让你告别累成dog的日子

因为这些程序实在没啥难度呀,又不是函数编程,又不是Deep Learning。但这却是骨感的现实,只能说明两个事实:


•Professional service对技术的应用简直low爆了,或者说在数据处理方面基本仅限于Office系列。亲眼所见一个知名对冲基金的研究员,一页一页地手工翻看搜房的网站,并用Ctrl C+Ctrl V记录搜房网所有自有经纪人的信息到Excel,并统计他们当前的成交量。然后每周做一次,查看每个经纪人的成交量增量。通过这样的数据分析来判断搜房转型到自由经纪人业务之后,模式是否成功。因为工作量实在巨大,后来只好请了一票实习生来做。


•跨界就是优势,懂业务懂技术,就是能做出改变。世界越来越平、技术越来越开源,越来越多的公司或者模式并不是单纯靠技术优势,而是靠对用户需求对业务的了解以及迅速满足需求。


吹这么多牛,一定要给出干货来填坑。现在祭出三大法宝:Excel、VBA以及爬虫。要想把数据做好,不仅仅是要找到数据,还要把数据清洗好和分析好。所以我不仅仅给出找数据的法宝,而是给了一套。


Excel是迄今为止最简单最便捷的处理数据的方式,下至四则运算,上至各类统计分析、矩阵运算及线性规划都可以搞定,所以一定要熟练掌握。网上资料很多,在此就不赘述了。但是Excel深不可测,基本没有天花板,千万不要以为会了VLookup及一些快捷键就可以耀武扬威了。至少需要把矩阵乘法、向量乘法、Offset/ Cells/ Row/ Range等函数用到极致,这样大多数Financial Model会做得非常灵活,而且各种数据查询及匹配工作会达到部分SQL的处理水平。


VBA会让Office的能力提升一个档次,除了完成函数不能完成的一些任务,最有价值的是能够在Office的各套软件之间实现信息同步。之上提到的许多软件都是基于VBA完成的,最重要的没有版权问题。


爬虫我需要细说一下和重点说一下。因为这是解决很多人多次提到的数据找不到的问题。


所谓爬虫,其实就是一套自动读取网页和解析网页的程序而已。用Python或者Go等程序语言写出爬虫程序来自动抓取网络数据,利用正则表达式等技术手段将脏数据清洗并结构化放入到数据库或者Excel,然后作分析以及长期监控。


数据挖掘大法让你告别累成dog的日子


网络上的数据越来越多,越来越能代表生活中的真实现象。通过“爬虫加正则”这种自动化的工具,能够耗很少的人工就可以将数据和信息采集并结构化,后续通过更多的分析工具完成许多有商业价值的分析并获取所谓的insight(将信息转化为知识和洞察)。


还记得上面提到的那个肉眼数搜房网网页的分析员的故事吗?其实这就是一个程序员用Python做好爬虫、结构化数据和最后分析的简单事情,于是出手相助就有了如下的分析图:轻松将搜房在各个城市的经纪人数量及单产搞清楚并按时监督,计算搜房在自有经纪人业务线的产出不足问题。


数据挖掘大法让你告别累成dog的日子

数据挖掘大法让你告别累成dog的日子


另外,还有基金在投资挂号网之前,让我帮忙做些数据统计和调研,下面的图表结合了从挂号网抓取的数据以及宏观数据:


         数据挖掘大法让你告别累成dog的日子


当然,给基金干活,数据的可视化很重要,使用文图 ,将图表画得很炫,逼格顿时提高,并不觉得比顶级咨询公司的PPT差到哪里。即使比他们差了,用他们的格式在网上实现一遍也就可以了,然后还可以共享给大家。


举个炫目图标效果的栗子:“重庆小面是如何风靡整个中国的”


数据挖掘大法让你告别累成dog的日子
数据挖掘大法让你告别累成dog的日子
数据挖掘大法让你告别累成dog的日子
数据挖掘大法让你告别累成dog的日子
数据挖掘大法让你告别累成dog的日子


掌握这些技术,我们还可做许多比较酷的事情,获取真正的insight,如下的东西无论是咨询项目还是投资项目,或许都能用得到,绝对都能让老板虎躯一震,让客户娇喘连连。


技术方面,Python写爬虫非常方便,调试则可以尝试“https://regex101.com/”这个网站。


下面我们聊一聊等待改变的Professional Service行业。


咨询、投行、投资、审计、律师等等,笼统得被称之为Professional Service,他们一直是以高大上形象出现的,往往瞧不上屌丝草根居多的技术行业。然而时代在变化,技术的力量在不断崛起,并摧毁和变革越来越多的行业。然而,Professional Service除了在上个世纪用上Office、互联网以及手机之后,整个行业并没有引入太多的技术,特别是在数据获取、分析及可视化方面。


再隔十年回头看如今的咨询、投行、投资行业对技术的运用,会如同我们现在回望上世纪七十年代左右,我们的前辈在纸上或黑板上画PPT、在纸上算数然后展现给客户看的情景:真心觉得好落后。下图是波士顿咨询公司创始人及战略大师布鲁斯·亨德森智库(Bruce Henderson Institute),在黑板上给客户演示著名的波士顿2x2矩阵,桌子上没有电脑,而是一堆草稿纸。


数据挖掘大法让你告别累成dog的日子


所以我一直希望将技术引入到这个我曾经工作多年的行业,做出些改变。让所有从业人员的工作更轻松,让所有从业人员为客户带来更大的价值,让上面提到的数据相关的工作更加简单和有效。



数据挖掘大法让你告别累成dog的日子


我们在工作中深刻觉得以前制作图表和展示数据的方式太low、太繁琐,基于Web来制作图表的工具则可以轻松实现数据可视化,可以进行Excel/Powerpoint对标,也可以进行Tableau对标。


数据挖掘大法让你告别累成dog的日子


最后,希望有一天这些数据工具能部分替代已经在江湖上混迹数十年的PowerPoint及Excel。

何明科   软银赛富前副总裁,一面网络创始人


在行话题:资深投资人为你把脉创业公司融资


"与何老师的交流受益匪浅,从职业规划到找工作的技巧,从项目挖掘到投资逻辑,涉及话题很多,何老师都一一耐心讲解,干货满满!"


点击 【阅读原文】 约见何明科,坐标:北京


▌专题

点击蓝色字标题即可阅读全文

院士:李国杰【()()】【】,倪光南【大数据时代)()】,

大数据100分:【】【】【】【】【】【更多行业大数据应用请点击底部导航栏BD100分】;

征信:【】【】【】;

工业4.0:【】【】;

可视化:【】【】【】

专栏:【】【】【【】【】【】;

PPT:【】【【】【】【】【】【】;

Startup:【】【】【】【】【】;

VC:【】【】;

政策:【】【】;

数据开放:【】【】;

隐私保护:【】【】;

原创:【】【】。

软件定义世界(SDX)

软件定义世界(SDX),数据驱动未来(DDF)!

版权声明:部分文章来自互联网,版权属原作者所有,若涉及版权问题,敬请及时联系sdxtime@126.com.

底部新增导航菜单,下载100多个精彩PPT,持续更新中!



长按指纹,即可关注“软件定义世界(SDX)”

以上是关于数据挖掘大法让你告别累成dog的日子的主要内容,如果未能解决你的问题,请参考以下文章

告别被拒,如何提升iOS审核通过率(下篇)——应用内容检查大法与提审资源检查大法

Python大法之告别脚本小子系列—信息资产收集类脚本编写(下)

LabVIEW 吸星大法 - 看见的好东西都是我的(中篇)

LabVIEW 吸星大法 - 看见的好东西都是我的(上篇)

LabVIEW 吸星大法 - 看见的好东西都是我的(下篇)

Cmder: 懒癌必备!从此告别记事本记命令的日子