QQ好友说说爬虫技术详解

Posted 2021-04-30 追梦程序员

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了QQ好友说说爬虫技术详解相关的知识，希望对你有一定的参考价值。

自从上篇文章推出后，好多小伙伴问小编怎么实现爬取QQ空间里的说说，今天小编就来详细的向大家介绍QQ好友说说爬虫技术。通过这篇文章的学习，希望可以给各位小伙伴带来帮助。

本文将从三个部分依次详解，分别是预备知识简介、QQ好友说说爬虫框架、爬虫步骤详解。

一、预备知识简介

小编爬取QQ好友说说采用Python语言，所以各位小伙伴要有Python基础。另外在爬取中用到了Python的几个第三方库，分别是requests库、BeautifulSoup库，在数据存储和解析中用到了pymysql库、matplotlib库，所以各位对这些库要有所了解。

二、QQ好友说说爬虫框架

QQ好友说说爬虫的基本思想是使用已经在浏览器登录的cookie实现爬虫登录，利用准备好的好友QQ号下载全部好友说说html文件至本地文件系统，解析本地文件系统中的HTML文件提取说说信息存入MySql数据库，最后就是自己对MySql数据库中的说说信息进行分析了。爬虫框架图如下。

三、爬虫步骤详解

3.1 获取所有好友QQ号

QQ邮箱有导出所有联系人的功能，故我们可以借助QQ邮箱获取所有好友QQ号。步骤如下：登录QQ邮箱-->点击右侧通讯录-->点击工具，选择导出联系人-->下载CSV格式文件。

QQ好友说说爬虫技术详解

3.2 获取在浏览器登录的cookie

我们要利用已经在浏览器登录的cookie实现爬虫登录，所有必须得到浏览器cookie。步骤如下：打开浏览器 --> 进入 https://qzone.qq.com 网站 --> 按F12打开浏览器的开发工具，切换到Network（网络） --> 输入你的QQ号和密码登录进去 --> 点击第一行，复制请求头的cookie值至txt文件。

QQ好友说说爬虫技术详解