行业动态爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!

Posted 弘宇生态园

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了行业动态爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!相关的知识,希望对你有一定的参考价值。

在观看此文之前,红姐需要跟您说说爬虫技术的重要性。相信大家都接触过很多的电商TP公司,除掉只做培训的企业外,譬如:超级快车、驭宝、逐鹿等技术型公司,就会存在庞大的数据库。他们的数据多数通过爬虫技术进行获取。


这些获取到的技术,可以分析出消费者喜好、产品销售情况、定价策略、关键词点击等情况,帮助您进行seo、直通车与钻展的优化,因此说爬虫技术是一项优秀淘宝运营人员必备的神奇本领。


接下来,大家可以通过下文中作者关于爬取QQ空间用户的思维,来理解爬虫技术的重要性。如果您希望对爬虫技术进行深入了解,红姐可以将2年前收藏的爬虫技术资料分享与您,微信后台回复:我要,红姐将手动给留言的朋友发资料。


正文开始:


这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周,目前总共爬了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。




目前已经爬到我的第7圈好友(depth=7)共3000万数据。


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


爬虫主程序运行界面:


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


爬虫程序设计:


大致设计思路是模仿工厂的生产车间,使用三大独立循环线程组(GetWaitList,CrawlerQQInfos,SaveData)。


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


详细设计图:


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


再看看,我根据这份数据生成的一些有趣的统计图(数据量太大了一次加载到内存中直接报内存不够了,所以下面的统计数据只取了depth值小数据较完整约80W的数据):


内存已经爆了,不能怪我。谁赞助台服务器吧。


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


1.大家一般都在啥时候发说说呢?


从图中看出一天最冷门的时候是凌晨4点,这时全国正在睡觉的人最多。 大家最亢奋的是晚上10点到11点,人们都喜欢睡前看看别人的空间,发条说说。中午12点左右也有一波小高峰


一会我再统计张中国人习惯几点起床,几点吃饭,几点睡觉的图吧。


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


2.中国人都喜欢在几月生小孩呢?


最热门的是1月份和10月份,最冷门的是4月份。10月份生小孩的多好理解,一年忙差不多了,天气也不冷不热正是生小孩的好时候。 但1月份最高且和2月落差很大有点不好理解,那么冷的天生不怕冻吗? 我估计是1月份也快过年了,以前没聚一起的好不容易聚一起了,就容易冲动,冲动就啪啪啪。 4月份生日的最少也好理解,中国人不喜欢4这个数字呗。 大数据有意思吧!! 我觉得太好玩了,后面还有很多呢。


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


3.这是我目前爬取的用户所在地分布


你能猜出我是哪的了吗?前四名分别为:广东,湖南,四川,江苏。 没错,我就是湖南的! 湖南人在广东打工的超级多,这也能理解为什么广东排名第一了。江苏是我上学的地方,有点琢磨不透的是四川和我非情非故的居然排第3名,我的朋友们,你们是谁播的种?站出来! 还有一种可能,四川人交际能力全国第一,我平时在重庆小面吃饭,四川人确实特别,说话语速那个快啊,声调那个高啊。受不了!


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


4.数据人群的年龄分布


一不小心就暴漏了我的年龄,没错。我就是那个最高值的1990年;从目前的数据来看,无论是分布地区以及年龄阶段与我的关联还非常大,随着数据量的不断增加这种关联会逐渐变小,统计图也会逐渐接近全国用户的真实情况。真想弄几台服务器分布式搞起,估计一周就能爬上亿的简单数据。 单靠我的笔记本和家里超烂的网速达到这个目标还很远。


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


5.数据人群性别分布


男比女足足多了23%的人数,我分析认为实际差距应该是不大的,但女生在设置QQ空间访问权限时普遍要比男生的高。所以我爬取的数据中男生居多。


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


6.下面系列图是根据一些“关键字”在说说中出现的频率统计出来的,相当有意思。


6.1 图说股市


在知乎“能利用爬虫技术做到哪些很酷很有趣很有用的事情?” 有一个google实习的哥们@Emily L爬了400亿条tweet也做了很多有趣的分,其中提到一篇关于利用twitter上人的心情来预测股市的论文(http://battleofthequants.net/wp-content/uploads/2013/03/2010-10-15_JOCS_Twitter_Mood.pdf)很有意思。另附我在该问题下的答案“用爬虫监测她(他)的知乎动态”,仅做技术玩乐,求别再喷我猥琐了。


如果当我们拥有海量的QQ空间最新说说,和sina微博数据。我想,用它们来做一些股市或者其它方面的分析预测是可行的,准确度应该也是非常高的。我接下来可能会考虑去做这件有趣的事情。


将股票中的关键字做海量数据分析,比如会得出当日讨论股票排行榜。进而能得到海量讨论股票的用户,再通过市场的实际反馈找出股票上涨及下跌的正相关因子,再对这些海量用户进行分析计算得出最靠谱股票推荐大神排行榜。对这些用户分级,分优先度及抓取密度来拿数据。用这些数据分析出哪些是靠谱的股票肯定靠谱。


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


6.2 群众讨论最多的明星排行榜,还是很靠谱的。


另附我抓的明星QQ号吧,纯属娱乐,自辩真假。有些空间确实有很多生活私照。


张杰QQ:4199** 花千骨的赵丽颖QQ:4277** 谢娜QQ:5007** 杨幂QQ:4567** 范冰冰QQ:885** 周杰伦QQ:3326**


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


6.3 最为用户喜爱的手机品牌


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


6.4 人们最喜欢谈论的互联网公司,阿里之所以这么低估计是大家都喜欢叫它淘宝或者天猫吧。 取这么多名字,自讨苦吃。


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


6.5 QQ空间中讨论的最为频繁的社交平台排行榜。


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


6.6 生活的统计图


爱>恨; 开心>伤心; 笑声>叹气声; 吃货很多; 谁特么说中国不幸福了,这满满的都是正能量数据啊。


【行业动态】爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!


好了,其实还可以做很多其它的分析。如果大家有什么有趣的数据分析想知道的,那就给我留言吧。


技术不多说了,程序不难,多线程数据库操作却是把我搞苦了。还好,现在程序差不多稳定了。过程也是很有意思的,有空我再写个程序升级过程中的那些趣事吧。我觉得一个美妙的程序一定是高度模拟现实的,就像飞机模仿蜻蜓,雷达模仿蝙蝠一样。 这次的程序设计就是模拟的工厂的生产线。


【关于我们】

弘宇农业在天交所挂牌代码:832006,挂牌简称:弘宇农业;为弘宇农业旗下经营品牌。

1⃣️回文章顶部,点“ 弘宇生态园”免费订阅

2⃣️内容来源博客园,版权属原作者

【关于我们】

弘宇农业在天交所挂牌代码:832006,挂牌简称:弘宇农业;为弘宇农业旗下经营品牌。

【原始口粮】关注品牌农业、优质农品;您身边的膳食管家,早在《黄帝内经·素问》中就提出了“五谷为养,五果为助,五畜为益,五菜为充,气味合而服之,以补精益气”,原始口粮以“原始为名,致力推广膳食的返璞归真,做到原始养生,精致养生。

【推荐平台】

微信公众平台中文名称:弘宇生态园

微信公众平台英文名称:hystny

了解更多原始口粮基地详情

原始口粮腾讯qq会员群:119808218

【电商平台】

原始口粮天猫专营店:

http://jshysp.tmall.com/

原始口粮京东专营店:

http://mall.jd.com/index-59355.html/

原始口粮工商银行融e购商城:

http://mall.icbc.com.cn/shop/index.jhtml?shopId=010526&themeId=000144&preview=overlay

原始口粮淘宝店:

http://jshyyskl.taobao.com/

原始口粮1号店:

http://shop.1mall.com/html/19687/?1380257943000=6100

【社媒宣传】

原始口粮腾讯微博:

http://t.qq.com/jshyyskl

原始口粮新浪微博:

http://e.weibo.com/u/3008551874


以上是关于行业动态爬虫技术:轻松获取3000万用户信息,玩转天猫大数据不再难!的主要内容,如果未能解决你的问题,请参考以下文章

风控安全“爬虫技术”惹争议

即使不会爬虫技术,也能轻松获取的重要数据

数据即使不会爬虫技术,也能轻松获取的重要数据

家居行业小程序如何玩转家居营销,家居开发小程序开发

爬虫技术助力咨询企业快速获取招标信息

爬去知乎百万用户信息之UserTask