通过Scrapy抓取QQ空间

Posted 2020-07-24 rw_rongwei

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了通过Scrapy抓取QQ空间相关的知识，希望对你有一定的参考价值。

毕业设计题目就是用Scrapy抓取QQ空间的数据，最近毕业设计弄完了，来总结以下：

首先是模拟登录的问题：

由于Tencent对模拟登录比较讨厌，各个防备，而本人能力有限，所以做的最简单的，手动登录后，获得Cookie信息，然后携带访问。

其次是数据接口：

通过对QQ空间的网页分析，数据主要是通过Json的形式返回。选择了两个数据接口进行数据抓取

每个QQ的详细信息接口： "http://user.qzone.qq.com/p/base.s8/cgi-bin/user/cgi_userinfo_get_all?uin="+str(self.currentQQ)+"&vuin=QQ&fupdate=1&rd=0.007898919197098397&g_tk="+GTK

每个QQ的说说信息接口："http://taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin="+str(self.currentQQ)+"&ftype=0&sort=0&pos=0&num=40&replynum=100&g_tk="+str(self.getOldGTK(self.skey))+"&callback=_preloadCallback&code_version=1&format=json&need_private_comment=1"

最后使用Scrapy完成网络请求，并将数据存入数据库

最终进行了简单的统计：

以上是关于通过Scrapy抓取QQ空间的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫编程思想（103）：项目实战--抓取QQ空间说说的内容

抓取60000+QQ空间说说做一次数据分析

QQ空间g_tk加密参数算法

scrapy遇上ajax，抓取QQ音乐周杰伦专辑与歌词

Web 项目中分享到微博QQ空间等分享功能

QQ空间爬虫分享（2016年11月18日更新）