数据挖掘DW君谈如何利用爬虫技术做些很酷很有趣很有用的事情

Posted 私募工场

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘DW君谈如何利用爬虫技术做些很酷很有趣很有用的事情相关的知识,希望对你有一定的参考价值。


转自数据挖掘DW

2011年夏天我在google实习的时候做了一些Twitter数据相关的开发,之后我看到了一片关于利用twitter上人的心情来预测股市的论文(后台回复股市预测获取)。实习结束后我跟几个朋友聊了聊,我就想能不能自己做一点twitter的数据挖掘,当时只是想先写个爬虫玩玩,没想最后开发了两年多,抓取了一千多万用户的400亿条tweet。


一、分析篇

先给大家看一些分析结果吧。大家几点睡觉呢? 我们来统计一下sleep这个词在twitter上出现的频率。

看来很多人喜欢在睡前会说一声我睡了。那我们再看一个更有意思的 :"Thursday"这个词的每天出现的频率。
数据挖掘DW君谈如何利用爬虫技术做些很酷很有趣很有用的事情
这里2月2号是周四,不出意料,这一天提到周四的频率最高。而且好像离周四越近这个频率越高。可是,为什么2月1号的频率反而低了呢?是因为2月1号大家不说周四而说明天了(有的人会说2月2号也可以说是今天,但是因为在2月2号提到当天的次数太高,因此还是有很多人用周四这个词)。

做了词频统计我们还可以做一些语义分析。我们可以利用unsupervised learning来分析一条tweet的感情色彩。我们对每一条tweet的高兴程度在0至1之间打分,并对每天做平均值,就得到了下面这张图。这里最明显的特征恐怕就是周期性了。是的,大家普遍周末比较高兴。不过这张图的开始和中间有两个点与周期不吻合。如果我告诉你这两天是1月1日和2月14日,那你肯定会想到为什么了,元旦和情人节很多人是很高兴的(不排除slient majority存在的可能)。
数据挖掘DW君谈如何利用爬虫技术做些很酷很有趣很有用的事情
这很有意思,但似乎没什么用啊。那我们来看下面这张图,还是2012年的情感分析,不过这里对用户进行了过滤,只保留了来自投资人和交易员的tweet (根据用户的tweet我们可以估计他/她的职业)。蓝线是这些用户的感情色彩,红线是S&P 500指数。看来行情好的时候大家都高兴啊。


话题汇总:

《私募相关法规》系列(回复fg获取系列全文)

金融模型·量化投资系列(回复lhtz获取系列全文)

算法理论&代码(回复sfdm获取系列全文)

SVM系列全部资料获取:(回复关键词“svm”可查看)

用R语言做数据分析: (回复关键词“r”可查看)

《宏观经济研究》系列(回复hgyj获取系列全文)

《大数据与金融业》资讯系列(回复dsj获取系列全文)

国家战略权威评论(回复zlpl获取系列全文)

世纪大救市观察系列(回复sjdjs获取系列全文

私募工场面向全国招募渠道合伙人

私募工场是国内首个私募服务专业团队,专为私募、投资机构、期货资管、券商资管、保险资管等二级市场提供知识服务、技术咨询、产品设计、深度合作,同时服务于有一级市场融资需求的实体企业和相关投资者。目前团队成员来自公募、私募、券商、银行、保险及海外金融机构的相关人员。

诚意邀请:

1.全国各地公募基金、私募基金、券商、银行资管及其他金融机构从事资管产品设计、量化投资策略研究工作的人员;

2.各地有影响力的渠道团队;

3.具备相应风险识别能力和风险承担能力的单位和个人投资者;

4.净资产不低于1000万元的单位投资者;

5.金融资产不低于300万元的个人投资者。

其中,金融资产包括银行存款、股票、债券、基金份额、资产管理计划、银行理财产品、信托计划、保险产品、期货权益等。

以上是关于数据挖掘DW君谈如何利用爬虫技术做些很酷很有趣很有用的事情的主要内容,如果未能解决你的问题,请参考以下文章

利用爬虫技术能做到哪些很酷很有趣很有用的事情?

有意思的大数据利用爬虫技术能做到哪些很酷很有趣很有用的事情?

学习利用爬虫技术能做到哪些很酷很有趣很有用的事情?

python爬虫从入门到精通-系列教程

Python爬虫学习之获取网页源码

一个抓取知乎页面图片的简单爬虫