Python都有哪些常见的，好用的爬虫框架

Posted 2023-03-27

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python都有哪些常见的，好用的爬虫框架相关的知识，希望对你有一定的参考价值。

目前实现爬虫技术的编程环境有很多种，Java、Python、C++等都可以用来写爬虫。但很多人选择Python来写爬虫，原因是Python确实很适合做爬虫，丰富的第三方库十分强大，简单几行代码便可实现你想要的功能。更重要的，Python也是数据挖掘和分析的好能手。那么，今天IPIDEA就带大家来了解Python爬虫一般用什么框架比较好。

Beautiful Soup：整合了一些常用爬虫需求。它是一个可以从html或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup的缺点是不能加载JS。

selenium：这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。Selenium是自动化测试工具，它支持各种浏览器，包括 Chrome，Safari，Firefox等主流界面式浏览器，如果在这些浏览器里面安装一个 Selenium 的插件，可以方便地实现Web界面的测试. Selenium支持浏览器驱动。Selenium支持多种语言开发，比如 Java，C，Ruby等等，PhantomJS 用来渲染解析JS，Selenium 用来驱动以及与Python的对接，Python进行后期的处理。

Scrapy：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。它的特性有：HTML, XML源数据选择及提取的内置支持；提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。

Portia：是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站！简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核；可视化爬取内容，不需要任何开发专业知识；动态匹配相同模板的内容。

cola：是一个分布式的爬虫框架，对于用户来说，只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。项目整体设计有点糟，模块间耦合度较高。

PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。Python脚本控制，可以用任何你喜欢的html解析包。

参考技术A 由于项目需求收集并使用过一些爬虫相关库，做过一些对比分析。以下是我接触过的一些库：

Beautiful Soup。名气大，整合了一些常用爬虫需求。缺点：不能加载JS。
Scrapy。看起来很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。
mechanize。优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。
selenium。这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。
cola。一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高，不过值得借鉴。

以下是我的一些实践经验：

对于简单的需求，比如有固定pattern的信息，怎么搞都是可以的。
对于较为复杂的需求，比如爬取动态页面、涉及状态转换、涉及反爬虫机制、涉及高并发，这种情况下是很难找到一个契合需求的库的，很多东西只能自己写。

至于题主提到的：
还有，采用现有的Python爬虫框架，相比与直接使用内置库，优势在哪？因为Python本身写爬虫已经很简单了。
third party library可以做到built-in library做不到或者做起来很困难的事情，仅此而已。还有就是，爬虫简不简单，完全取决于需求，跟Python是没什么关系的。本回答被提问者采纳参考技术B ①Scrapy：是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中;用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。
②PySpider：是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。
③Crawley：可以高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。
④Portia：是一个开源可视化爬虫工具，可让您在不需要任何编程知识的情况下爬取网站，简单地注释您感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。
⑤Newspaper：可以用来提取新闻、文章和内容分析，使用多线程，支持10多种语言等。
⑥Beautiful Soup：是一个可以从HTML或XML文件中提取数据的python库，它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式，会帮你节省数小时甚至数天的工作时间。

用python写爬虫都有哪些框架？

1、Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求。
2、pyspider
是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。
3、Crawley可以高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。
4、Portia是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站!简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核;可视化爬取内容，不需要任何开发专业知识;动态匹配相同模板的内容。
5、Grab是一个用于构建Web刮板的Python框架。借助Grab，您可以构建各种复杂的网页抓取工具，从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容，例如与HTML文档的DOM树进行交互。参考技术A 以下是搜索来源于网络：
1)Scrapy:很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。

2)Crawley: 高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等

3)Portia:可视化爬取网页内容

4)newspaper:提取新闻、文章以及内容分析

5)python-goose:java写的文章提取工具

6)Beautiful Soup:名气大，整合了一些常用爬虫需求。缺点：不能加载JS。

7)mechanize:优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。

8)selenium:这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。

9)cola:一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高。参考技术B 最强大的框架毫无疑问是Scrapy，简单点的框架有pyspider，这是中国人开发的框架，带有WEB UI界面。
框架功能强大，一般个人的小项目用不到框架，可以尝试一些简单的爬虫库，比如requests、pyppeteer、aiohttp，后两者需要asyncio相关的知识。参考技术C 1、Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。
可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知url
pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求。
2、pyspider
是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。
3、Crawley可以高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。
4、Portia是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站!简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核;可视化爬取内容，不需要任何开发专业知识;动态匹配相同模板的内容。
5、Grab是一个用于构建Web刮板的Python框架。借助Grab，您可以构建各种复杂的网页抓取工具，从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容，例如与HTML文档的DOM树进行交互。

以上是关于Python都有哪些常见的，好用的爬虫框架的主要内容，如果未能解决你的问题，请参考以下文章

Python编程基础之（五）Scrapy爬虫框架