scrapy和python有啥关系

Posted 2023-03-17

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了scrapy和python有啥关系相关的知识，希望对你有一定的参考价值。

Scrapy是Python开发的一个快速、高层次的web数据抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘

参考技术A

Scrapy是Python开发的一个快速、高层次的web数据抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘和监测。

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等。

Scrapy算得上是Python世界中最常用的爬虫框架了，同时它也是我掌握的几种流行语言中最好的爬虫框架，没有之一！我认为它也是最难学习的框架，同样没有之一。很多初学Scarpy的经常向我抱怨完全不清楚Scrapy该怎样入手，即使看的是中文的文档，也感到很难理解。我当初接触Scrapy时也有这样的感觉。之所以感到Scrapy难学，究其原因，是其官方文档实在太过凌乱，又缺少实用的代码例子，让人看得云里雾里，不知其所已然。虽然其文档不良，但却没有遮挡住它的光辉，它依然是Python世界中目前最好用的爬虫框架。其架构的思路、蜘蛛执行的效能，还有可扩展的能力都非常出众，再配以Python语言的简洁轻巧，使得爬虫的开发事半功倍。

scrapy-redis 和 scrapy 有啥区别

scrapy和scrapy-redis不应该讨论区别。
scrapy 是一个通用的爬虫框架，其功能比较完善，可以帮你迅速的写一个简单爬虫，并且跑起来。scrapy-redis是为了更方便地实现scrapy分布式爬取，而提供了一些以redis为基础的组件（注意，scrapy-redis只是一些组件，而不是一个完整的框架）。
你可以这么认为，scrapy是一工厂，能够出产你要的spider。而scrapy-redis是其他厂商为了帮助scrapy工厂更好的实现某些功能而制造了一些设备，用于替换scrapy工厂的原设备。
所以要想跑分布式，先让scrapy工厂搭建起来，再用scrapy-redis设备去更换scrapy的某些设备。参考技术A Scrapy是一个Python的爬虫框架，爬取效率很高，具有高度定制性，但是不支持分布式;
Scrapy-redis是一个基于redis数据库、运行在Scrapy框架之上的组件，可以让Scrapy支持分布式策略，Slaver端共享Master端redis数据库里的item队列、请求队列和请求指纹集合。
Scrapy框架怎么样?
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。
尽管Scrapy原本是设计用来屏幕抓取(更精确的说，是网络抓取)，但它也可以用来访问API来提取数据。

以上是关于scrapy和python有啥关系的主要内容，如果未能解决你的问题，请参考以下文章

scrapy-redis 和 scrapy 有啥区别

爬虫，有啥框架比httpclient更快

从python基础到爬虫的书有啥值得推荐？

scrapy写爬虫经历

Python spider Scrapy管道操作