python爬虫Scrapy

Posted 工程小白

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫Scrapy相关的知识,希望对你有一定的参考价值。

  Scrapy

1、python爬虫框架Scrapy

  爬虫框架是实现爬虫功能的一个软件结构和功能组建集合

  爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫

2、scrapy爬虫框架“5+2”结构解析

  2.1、Engine:框架核心,不需用户编写

  2.2、Downloader:下载网页,不需用户修改

  2.3、Scheduler:对爬虫请求进行调度管理,不需用户修改

  2.4、Downloader Middleware:

    目的:实施Engine、Scheduler和Downloader之间进行用户可配置的控制;

    功能:修改、丢弃、新增请求或响应;

    用户可以编写配置代码

  2.5、Spider:解析Downloader返回的响应(Response);产生爬取项(scraped item);产生额外爬取请求(Request),

  2.6、Item Pipelines:以流水线的形式处理Spider产生的爬取项;由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型;可能操作包括:清理、检查和查重爬取项中的HTML数据、将数据存储到数据库。

    需要用户编写配置代码

  2.7、Spider Middleware:

    目的:对请求和爬取项再处理

    功能:修改、丢弃、新增请求或爬取项

    用户可以编写配置代码

3、requests库与Scrapy比较

requests库 scrapy框架
页面级爬虫 网站级爬虫
功能库 框架
并发性不足,性能差 并发行好,性能较高
重点在于页面下载 重点在于爬虫结构
定制灵活 一般定制灵活,深入定制困难
上手简单 入门稍难

 

 

 

 

 

 

 

 

 

4、Scrapy爬虫的常用命令

  4.1、startproject:创建一个新工程  scrapy startproject <name> [dir]

  4.2、genspider:创建一个爬虫  scrapy genspider [options] <name> <domain>

  4.3、settings:获得爬虫配置信息  scrapy settings [options]

  4.4、crawl:运行一个爬虫  scrapy crawl <spider>

  4.5、list:列出工程中所有爬虫  scrapy list

  4.7、shell:启动URL调试命令行  scrapy shell [url]

以上是关于python爬虫Scrapy的主要内容,如果未能解决你的问题,请参考以下文章

开源爬虫框架哪家强?是骡子是马,拉出来溜溜就知道了!

Python爬虫入门:爬虫基础了解

Python 爬虫的入门教程都有哪些值得推荐的?

python爬虫

求编程大佬 Python 爬虫

15《Python 原生爬虫教程》爬虫和反爬虫