数据挖掘DW君谈如何利用爬虫技术做些很酷很有趣很有用的事情
Posted 私募工场
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘DW君谈如何利用爬虫技术做些很酷很有趣很有用的事情相关的知识,希望对你有一定的参考价值。
转自数据挖掘DW
2011年夏天我在google实习的时候做了一些Twitter数据相关的开发,之后我看到了一片关于利用twitter上人的心情来预测股市的论文(后台回复股市预测获取)。实习结束后我跟几个朋友聊了聊,我就想能不能自己做一点twitter的数据挖掘,当时只是想先写个爬虫玩玩,没想最后开发了两年多,抓取了一千多万用户的400亿条tweet。
一、分析篇
先给大家看一些分析结果吧。大家几点睡觉呢? 我们来统计一下sleep这个词在twitter上出现的频率。
看来很多人喜欢在睡前会说一声我睡了。那我们再看一个更有意思的 :"Thursday"这个词的每天出现的频率。
这里2月2号是周四,不出意料,这一天提到周四的频率最高。而且好像离周四越近这个频率越高。可是,为什么2月1号的频率反而低了呢?是因为2月1号大家不说周四而说明天了(有的人会说2月2号也可以说是今天,但是因为在2月2号提到当天的次数太高,因此还是有很多人用周四这个词)。
做了词频统计我们还可以做一些语义分析。我们可以利用unsupervised learning来分析一条tweet的感情色彩。我们对每一条tweet的高兴程度在0至1之间打分,并对每天做平均值,就得到了下面这张图。这里最明显的特征恐怕就是周期性了。是的,大家普遍周末比较高兴。不过这张图的开始和中间有两个点与周期不吻合。如果我告诉你这两天是1月1日和2月14日,那你肯定会想到为什么了,元旦和情人节很多人是很高兴的(不排除slient majority存在的可能)。
这很有意思,但似乎没什么用啊。那我们来看下面这张图,还是2012年的情感分析,不过这里对用户进行了过滤,只保留了来自投资人和交易员的tweet (根据用户的tweet我们可以估计他/她的职业)。蓝线是这些用户的感情色彩,红线是S&P 500指数。看来行情好的时候大家都高兴啊。
话题汇总:
《私募相关法规》系列(回复fg获取系列全文)
金融模型·量化投资系列(回复lhtz获取系列全文)
算法理论&代码(回复sfdm获取系列全文)
SVM系列全部资料获取:(回复关键词“svm”可查看)
用R语言做数据分析: (回复关键词“r”可查看)
《宏观经济研究》系列(回复hgyj获取系列全文)
《大数据与金融业》资讯系列(回复dsj获取系列全文)
国家战略权威评论(回复zlpl获取系列全文)
世纪大救市观察系列(回复sjdjs获取系列全文)
私募工场面向全国招募渠道合伙人
私募工场是国内首个私募服务专业团队,专为私募、投资机构、期货资管、券商资管、保险资管等二级市场提供知识服务、技术咨询、产品设计、深度合作,同时服务于有一级市场融资需求的实体企业和相关投资者。目前团队成员来自公募、私募、券商、银行、保险及海外金融机构的相关人员。
诚意邀请:
1.全国各地公募基金、私募基金、券商、银行资管及其他金融机构从事资管产品设计、量化投资策略研究工作的人员;
2.各地有影响力的渠道团队;
3.具备相应风险识别能力和风险承担能力的单位和个人投资者;
4.净资产不低于1000万元的单位投资者;
5.金融资产不低于300万元的个人投资者。
其中,金融资产包括银行存款、股票、债券、基金份额、资产管理计划、银行理财产品、信托计划、保险产品、期货权益等。
以上是关于数据挖掘DW君谈如何利用爬虫技术做些很酷很有趣很有用的事情的主要内容,如果未能解决你的问题,请参考以下文章