scrapy框架

Posted yelan5222

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy框架相关的知识,希望对你有一定的参考价值。

scrapy框架(三)

CrawlSpider类

创建CrawlSpider
 # 创建项目后
 $ scrapy genspider -t crawl spider_name website_domain
 ?
 url 就是你想要爬取的网址
 注意:分析本地文件是一定要带上路径,scrapy shell默认当作url
 ?

 

介绍:

CrawlSpider类继承自spider类

CrawlSpiders url规则 自动生成Request请求

 

Rule
 Rule用来定义CrawlSpider的爬取规则
 ?
 参数:
 link_extractor Link Extractor的实例对象,它定义如何从每个已爬网页面中提取链接。
 callback  回调函数
 cb_kwargs  是一个包含要传递给回调函数的关键字参数的dict
 follow 它指定是否应该从使用此规则提取的每个响应中跟踪链接。
 process_links  用于过滤连接的回调函数
 process_request  用于过滤请求的额回调函数
 ?

 

LinkExtractor 对象
 参数:
  allow 正则表达式 满足的url 会被提取出来
 ?
  deny 正则表达式 满足的url 不会被提取出来
 ?
  restrict_xpaths 路径表达式 符合路径的标签提取出来
 ?
 LinkExractor也是scrapy框架定义的一个类
 它唯一的目的是从web页面中提取最终将被跟踪的额连接。
 ?
 我们也可定义我们自己的链接提取器,只需要提供一个名为
 extract_links的方法,它接收Response对象
 并返回scrapy.link.Link对象列表。
 ?

 

以上是关于scrapy框架的主要内容,如果未能解决你的问题,请参考以下文章

Python之Scrapy安装

走近代码之Python--爬虫框架Scrapy

Scrapy框架概述

爬虫框架Scrapy 之 --- scrapy文件

初识scrapy爬虫框架

Python Scrapy框架