通过Scrapy抓取QQ空间

Posted rw_rongwei

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了通过Scrapy抓取QQ空间相关的知识,希望对你有一定的参考价值。

毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结以下:

首先是模拟登录的问题:

由于Tencent对模拟登录比较讨厌,各个防备,而本人能力有限,所以做的最简单的,手动登录后,获得Cookie信息,然后携带访问。

其次是数据接口:

通过对QQ空间的网页分析,数据主要是通过Json的形式返回。选择了两个数据接口进行数据抓取

每个QQ的详细信息接口: "http://user.qzone.qq.com/p/base.s8/cgi-bin/user/cgi_userinfo_get_all?uin="+str(self.currentQQ)+"&vuin=QQ&fupdate=1&rd=0.007898919197098397&g_tk="+GTK

每个QQ的说说信息接口:"http://taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin="+str(self.currentQQ)+"&ftype=0&sort=0&pos=0&num=40&replynum=100&g_tk="+str(self.getOldGTK(self.skey))+"&callback=_preloadCallback&code_version=1&format=json&need_private_comment=1"

最后使用Scrapy完成网络请求,并将数据存入数据库

最终进行了简单的统计:

figure_1figure_2figure_3figure_4

以上是关于通过Scrapy抓取QQ空间的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫编程思想(103):项目实战--抓取QQ空间说说的内容

抓取60000+QQ空间说说做一次数据分析

QQ空间g_tk加密参数算法

scrapy遇上ajax,抓取QQ音乐周杰伦专辑与歌词

Web 项目中分享到微博QQ空间等分享功能

QQ空间爬虫分享(2016年11月18日更新)