网络爬虫小结

Posted 2021-01-10 cxf-zzj

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了网络爬虫小结相关的知识，希望对你有一定的参考价值。

Python中可以用来爬取网络数据的库有很多，常见的有：urllib、urllib2、urllib3、requests、scrapy、selenium等。

基本上可以分为3类：

第一类：urllib、urllib2、urllib3、requests；

第二类：scrapy；

第三类：selenium；

第一类是python自带的库，其中requests上手简单，功能强大,缺点就是缺少配套工程，自己需要自己写不少的代码处理语料(哈哈，urllib、urllib2、urllib3不建议画太多精力在上面)；

第二类和第三类是封装好的框架，功能强大，配套的工程多，但上手相对复杂；

Scrapy和requests比较难以处理动态网页，selenium比较适合处理动态网页；

相反的，Scrapy适合大规模的数据爬取，而selenium只适合小规模的数据爬取。

以上是关于网络爬虫小结的主要内容，如果未能解决你的问题，请参考以下文章