轻量级爬虫框架

Posted 明-学以致用

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了轻量级爬虫框架相关的知识,希望对你有一定的参考价值。

轻量级爬虫框架

2018-02-12

 

1【转】设计和实现一款轻量级的爬虫框架 【代码

 

  • 调度器(Scheduler):是队列,保存请求队列响应队
  • 下载器(Downloader):通过请求队列中的请求拉数据,把结果保存到响应队列
  • 爬虫(Spiders):对响应队列中响应通过css(根据不同网站配置)来获取需要的内容和url,需要的内容放到管道,url放到请求队列。
  • 管道(Pipeline): 负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。
  • 引擎(ElvesEngine):流程控制

 

以上是关于轻量级爬虫框架的主要内容,如果未能解决你的问题,请参考以下文章

轻量级爬虫框架

设计和实现一款轻量级的爬虫框架

500 行 Python 代码构建一个轻量级爬虫框架

干货|500行Python代码构建一个轻量级爬虫框架(大神)

一款可能取代 Scrapy 的爬虫框架 - feapder

JLiteSpider:轻量级的分布式java爬虫框架