Python爬虫宝典：从爬取网页到App所有思路总结

Posted 2021-09-08 yunyun云芸

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫宝典：从爬取网页到App所有思路总结相关的知识，希望对你有一定的参考价值。

爬虫在工作生活中使用非常广泛，无论是论文数据准备还是市场调研还是工作工具等等都十分有用，爬取的目标大部分是网页或App，所以今天就从这两大类分别来进行介绍。

爬虫大纲：

1.网页爬取

对于网页来说，将其划分为了两种类别

2.App 爬取

对于 App 来说，我又针对接口的形式进行了四种类别的划分

一、网页爬取

服务端渲染的意思就是页面的结果是由服务器渲染后返回的，有效信息包含在请求的 html 页面里面，比如猫眼电影这个站点。客户端渲染的意思就是页面的主要内容由 javascript 渲染而成，真实的数据是通过 Ajax 接口等形式获取的，比如淘宝、最右手机版等等站点。

服务端渲染的情况就比较简单了，用一些基本的 HTTP 请求库就可以实现爬取，如 urllib、urllib3、pycurl、hyper、requests、grab 等框架，其中应用最多的可能就是 requests 了。

对于客户端渲染，划分四个处理方法：

寻找 Ajax 接口，此种情形可以直接使用 Chrome/Firefox 的开发者工具直接查看 Ajax具体的请求方式、参数等内容，然后用 HTTP 请求库模拟即可，另外还可以通过设置代理抓包来查看接口，如 Fiddler/Charles。
模拟浏览器执行，此种情形适用于网页接口和逻辑较为复杂的情况，可以直接以可见即可爬的方式进行爬取，如可以使用Selenium、Splinter、Spynner、pyppeteer、PhantomJS、Splash、requests-html等来实现。
直接提取 JavaScript 数据，此种情形适用于真实数据没有经过 Ajax 接口获取，而是直接包含在 HTML结果的某个变量中，直接使用正则表达式将其提取即可。
模拟执行 JavaScript，某些情况下直接模拟浏览器执行效率会偏低，如果我们把 JavaScript的某些执行和加密逻辑摸清楚了，可以直接执行相关的 JavaScript 来完成逻辑处理和接口请求，比如使用Selenium、PyExecJS、PyV8、js2py 等库来完成即可。

对于 App 的爬取，这里分了四个处理情况：

对于普通无加密接口，这种直接抓包拿到接口的具体请求形式就好了，可用的抓包工具有Charles、Fiddler、mitmproxy。
对于加密参数的接口，一种方法可以实时处理，例如 Fiddler、mitmdump、Xposed
等，另一种方法是将加密逻辑破解，直接模拟构造即可，可能需要一些反编译的技巧。
对于加密内容的接口，即接口返回结果完全看不懂是什么东西，可以使用可见即可爬的工具 Appium，也可以使用 Xposed 来 hook获取渲染结果，也可以通过反编译和改写手机底层来实现破解。
对于非常规协议，可以使用 Wireshark 来抓取所有协议的包，或者使用 Tcpdump 来进行 TCP 数据包截获。

解析，对于 HTML 类型的页面来说，常用的解析方法就那几种，正则、XPath、CSS Selector，另外对于某些接口，常见的可能就是 JSON、XML 类型，使用对应的库进行处理即可。

这些规则和解析方法其实写起来是很繁琐的，如果我们要爬上万个网站，可以用上智能解析，意思就是说，如果能提供一个页面，算法可以自动来提取页面的标题、正文、日期等内容，同时把无用的信息给刨除。

对于智能解析，分为四个方法划分：

存储，即选用合适的存储媒介来存储爬取到的结果，这里还是分为四种存储方式来进行介绍：

文件，如 JSON、CSV、TXT、图⽚、视频、⾳频等，常用的一些库有csv、xlwt、json、pandas、pickle、python-docx 等。
数据库，分为关系型数据库、非关系型数据库，如 mysql、MongoDB、HBase 等，常用的库有 pymysql、pymssql、redis-py、pymongo、py2neo、thrift。
搜索引擎，如 Solr、ElasticSearch 等，便于检索和实现⽂本匹配，常用的库有 elasticsearch、pysolr等。
云存储，某些媒体文件可以存到如七⽜牛云、又拍云、阿里云、腾讯云、Amazon S3 等，常用的库有qiniu、upyun、boto、azure-storage、google-cloud-storage 等。

这部分的关键在于和实际业务相结合，看看选用哪种方式更可以应对业务需求。

反爬这部分是个重点，爬虫现在已经越来越难了，非常多的网站已经添加了各种反爬措施，在这里可以分为非浏览器检测、封 IP、验证码、封账号、字体反爬等。下面主要从封 IP、验证码、封账号三个方面来阐述反爬的处理手段。

对于封 IP 的情况，可以分为几种情况来处理：

验证码分为非常多种，如普通图形验证码、算术题验证码、滑动验证码、点触验证码、手机验证码、扫二维码等。

对于普通图形验证码，如果非常规整且没有变形或干扰，可以使用 OCR 识别，也可以使用机器学习、深度学习来进行模型训练，当然打码平台是最方便的方式。

对于算术题验证码，推荐直接使用打码平台。
对于滑动验证码，可以使用破解算法，也可以模拟滑动。后者的关键在于缺口的找寻，可以使用图片比对，也可以写基本的图形识别算法，也可以对接打码平台，也可以使用深度学习训练识别接口。
对于点触验证码，推荐使用打码平台。
对于手机验证码，可以使用验证码分发平台，也可以购买专门的收码设备，也可以人工验证。
对于扫二维码，可以人工扫码，也可以对接打码平台。

某些网站需要登录才能爬取，但是一个账号登录之后请求过于频繁会被封号，为了避免封号，可以采取如下措施：

寻找手机站点或 App 站点，此种类别通常是接口形式，校验较弱。
寻找无登录接口，尽可能寻找⽆无需登录即可爬取的接口。
维护 Cookies 池，使⽤用批量账号模拟登录，使⽤时随机挑选可用 Cookies使⽤即可，实现：https://github.com/Python3WebSpider/CookiesPool。