我看你骨髓清奇,是个学数据分析的奇才。

Posted luoluo-123

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我看你骨髓清奇,是个学数据分析的奇才。相关的知识,希望对你有一定的参考价值。

本文转自知乎

作者:邹昕

—————————————————————————————————————————————————————

 

整理一些数据分析入门的学习资料,顺便送几本书,有兴趣的请看文章最后。

【0】入门互联网数据分析

不同行业不同公司要求会很不一样,比如说银行做数据分析、建模会要求 SAS/SQL,而互联网行业数据分析只要会 SQL 就可以了。

再比如说小公司可能会要求还会 R/Python 什么的,但是稍微中型一点的公司则可能只需要会 SQL 就行了。

乍一看有点奇怪,但其实也不奇怪,因为大一点的公司基础设施 (infra) 做得好,很多事情比如说 A/B test 这种都自动化了,不需要专门写代码。

接下来的内容都以中型以上互联网公司为例,讲讲如何准备工作需要的三个维度:技术,数据分析方法,行业知识。

【1】技术
技术方面 SQL 是最基本的,也是最重要的。

几个可以学习 SQL 的网站,基本上不会有什么太大的区别

https://community.modeanalytics.com/sql/tutorial/introduction-to-sql/

https://sqlzoo.net/

中文版的 https://www.w3cschool.cn/sql/

一些可以练习的网站:

http://www.programmerinterview.com/index.php/database-sql/advanced-sql-interview-questions-continued-part-2/

重点需要注意的:where / group by / order by / left join / right join / inner join / null / not null / having / distinct / like / union / avg / sum / min / max 
像 rankover 这种已经算是挺高级的了。

当然除了 SQL 之外,Excel 也是要会一点的,比如说做个图,算算总合、平均之类的,稍微复杂点的数据透视表 (pivot) 就够了。

如果 SQL 上手比较快,时间充裕,那就练练 Tableau, 主要目的是看看都有什么样的图表,感受一下各自适用什么样的场景。

具体怎么做图不是非常重要,真要用的时候搜索一下现学就好了。

Tableau 很贵,所以下个试用版的就可以了,然后试用期学点最基本的就可以了。

说到数据可视化,再提一下这个 blog,作者写了《Storytelling with Data》:

http://www.storytellingwithdata.com/

【2】数据分析方法

经常被问到学习数据分析推荐哪些书,通常答案是我没看过什么数据分析的书,大部分时候是搜索整合各种网上的资源,后来仔细想了想,还是有一些的。

Case in point. 经典的管理咨询的书,哪个版本的都无所谓了,印象中大概看了一半左右。好像是因为懒,所以没看完,也因为套路都是类似的,看一半也就差不多可以了。

Introduction to Probability Models by Sheldon M. Ross. 应该是出到第 11 版了,但内容应该区别不大,看第一章就可以了,需要搞清楚条件概率,这个概念还是有点重要的。

Storytelling with Data,中文版《用数据讲故事》,作者也就是前面提到的 http://storytellingwithdata.com 的作者。

然后再找本统计基础的书(随便哪本教科书都差不多,实在不行的话把 wiki 上统计长条目下的多看几遍也可以),不要太纠结于理论、证明,时刻记住你要能把这些概念解释给不懂统计的人听,解释不清楚的东西你自己搞清楚了,效果也要大打折扣。

搞清楚几种常见的分布,假设检验,假阳性,假阴性,区别估算,显著性差异,p-value,平均值,中位数,p1/p25/p50/p75/p99,相关性,因果性,幸存者偏差,大数定律,80/20 等等。
Thinking, Fast and Slow. 当科普书看看就好,如果看不下去的话那就看《牛奶可乐经济学》。

【3】行业知识
很不幸,这一部分就真的没有特别有针对性的书可以看的了,基本都靠搜索,总结,思考,再搜索,总结,思考。。。

如果平时对互联网、科技行业相对比较关注,这一部分会上手很快,了解一些基本概念,试用一些产品,基本上 20 天可以达到一个入门的程度。

【3.1】试用相关的产品

所有互联网公司都强调员工要使用自己的产品,也就是所谓 dogfooding,这是提高产品思维最有效的办法,没有之一。

比如 Airbnb 会每个季度提供一定额度的金额让员工去度假的时候可以用上,住 Airbnb 上的房源,Uber 会给员工提供 credit 打 Uber 的,Facebook 会给员工提供 credit 在 Facebook 上做广告,通常来说每个季度几百块的样子。

通过这种方式员工可能会发现一些 bug,或者提供一些产品相关的反馈等等。

很显然,即使你不是上述公司的员工,你仍然是可以使用他们的产品,想想他们为什么样这么做,有什么可以改进的。

以 google map 为例,有一个功能是在达到目的地的时候,会显示出目的地的街景。那么接下来可以有一系列的问题。

为什么要显示出街景?方便用户辨认目的地。

除了显示街景还可以显示什么?可以显示附近停车场,或许目的地本身是没有停车场的,那么用户需要停车的话如果能自动给用户一些选择或许是一个不错的功能。

假设要做这么一个功能的话,什么情况下应该显示呢?

比如显然应该只有在用户在开车的时候才应该显示,那么如何辨别用户之前是开车而不是走路?

比如假如有目的地有停车场的话,那就不需要显示,这又如何辨别?

如果要显示停车场,又需要显示哪些信息?比如停车场的距离?价格?开放时间?

假设做了这么一些新的功能出来了,又如何验证效果是否好?A/B test?如何选 metrics?选用哪些用户?

类似的问题可以一直问下去,多进行类似的思维训练,对积累行业相关知识,训练产品思维是很有帮助的。

而且这种积累并不是说一定要坐在桌子前开始慢慢想,形成习惯了之后,使用产品的过程中会自然而然的想到这些。

比如上面的例子就是在一次导航完发现 google map 自动显示了目的地的街景而想到的。

数据分析的工作除了需要技术上的打磨,如何训练分析过程中的思路,也就是 analytical/critical thinking也是非常重要的一环。

很有效的一个办法就是碰到一个问题的时候,至少问自己5个为什么,不断深入,剥丝抽茧,问题也自然越来越明朗了。 

【3.2】善用搜索引擎

信息爆炸的时候,如何搜索信息、汇总、提炼出有用的信息变得尤其重要。具体关于如何使用 google的一些技巧,这篇文章就不细说了。

另外,墙内的同学们,试试FQ或者用 Bing 吧。

除此之外,知乎和 quora 上都聚集了大量互联网相关从业人员,很多问答也是与此相关的,至于能不能找到你想要的信息,搜索技巧就很重要了。 

【3.3】跟行业前辈交流

这里面的行业前辈可以是已经在行业里工作的师兄师姐(有时候是师弟师妹),也可以是这个行业里并没有什么关系的人。

那么如何结识这样的人,并且让他/她愿意帮助你呢?Linkedin 是一个很好的地方。就我个人来说,我很愿意帮助有一定准备的同胞。

注意是有一定准备,自己花了一定时间进行积累思索,让问题更有针对性,效果也会更好。

如果不直接认识在这个领域工作的人,很有可能也是可以通过你的好友间接认识的,此外还有一些社交网站,诸如微信群、知乎等,也可以认识不少行业大牛。

比如曾经有人问 

@曾加

,作为十几万粉的知乎大V,最好的变现方式是什么?

他回答的大意是,通过这样一些资源认识更多的行业大牛,不断增强自己,这是最好的“变现方式”, 就是这个意思。

还有一个很好的办法是通过各种线下聚会,比如美国这边尤其是湾区比较常见的 meetup,不时会有各个行业的活动。

这些活动上通常可以跟业内人士聊聊他们做的东西,请教一些问题,而且一般他们也会宣传他们的招人计划,可谓一举两得。

【3.4】网络资源

不管你是处在世界的哪个地方,只要有网络,也就意味着你可以接入到世界上无数的公开课、行业领头人物的分享。

但是信息太多,也就意味着如何精简挑选变得更加的困难。

这里我分享一下过去几年来我总结的一些资源,以及简单的讲一下推荐的理由。 

【3.5】书籍

Zero to One by Peter Thiel -- 从0到1

The Hard Thing about Hard Things by Ben Horowitz -- 创业维艰

这两本书是讲创业的,都有中文版。如果你还没看过,又想从事互联网行业的话,一定要看一下。虽然是讲创业的,但是却可以让人退一步,在一个更高的角度理解如何做好产品。 

【3.6】网站

http://jwegan.com/

Pinterest 的一个用户增长工程师的 blog,很多各种产品开发的思路、实验、分析。

https://www.kissmetrics.com/

产品思维里重要的一面,metrics metrics metrics。看名字你应该就能猜出来我为什么推荐这个网站了。

https://medium.com/

各种科技相关资讯。

http://firstround.com/review/

同上。

http://www.slideshare.net/

LinkedIn 旗下的网站,有大量专业人士分享的 slides (幻灯片)。

视频资源

https://www.youtube.com/channel/UCxIJaCMEptJjxmmQgGFsnCg

硅谷最出名的 YC 创业孵化器在斯坦福的讲课,中文版的看这里:

http://startupclass.club/

【3.7】微信/知乎推荐(排名不分先后)

张溪梦

微信公众号:GrowingIO

https://www.zhihu.com/people/simonzhang1

LinkedIn 前 Business Analytics 的大头创办的公众号,现在在国刚创业数据分析服务。

曹政

微信公众号:caozsay

https://www.zhihu.com/people/cao-zheng

心得分享

朱赟

微信公众号:AngelaTalk

Airbnb 工程师,硅谷技术、文化、故事、职业发展等。

曾加

微信公众号:PlusZeng

https://www.zhihu.com/people/zengjiaplus

蚂蚁数据分析

何明科

https://www.zhihu.com/people/he-ming-ke

做过投资做过互联网产品;目前专注于数据和互联网产品中。

chenqin

https://www.zhihu.com/people/chenqin

知乎数据帝

路人甲

微信公众号:一个程序员的日常

https://www.zhihu.com/people/sgai/

空白白白

https://www.zhihu.com/people/jiafeimao/

数据咨询

 

以上是关于我看你骨髓清奇,是个学数据分析的奇才。的主要内容,如果未能解决你的问题,请参考以下文章

图灵学院Java架构师要掌握哪些技能?你所不知的十五条秘密

学校英语怎么读?

听说你的神经网络模型是个学渣······

面试官:我看你简历上有写 LiveData,那谈谈LiveData事件机制

不胖不“威”的微服务架构

codevs 3943 数学奇才琪露诺