scrapy中Request中常用参数

Posted IT小不点

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy中Request中常用参数相关的知识,希望对你有一定的参考价值。

  

url: 就是需要请求,并进行下一步处理的url
callback: 指定该请求返回的Response,由那个函数来处理。
method: 一般不需要指定,使用默认GET方法请求即可
headers: 请求时,包含的头文件。一般不需要。内容一般如下:使用 urllib2 自己写过爬虫的肯定知道
        Host: media.readthedocs.org
        User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0
        Accept: text/css,*/*;q=0.1
        Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
        Accept-Encoding: gzip, deflate
        Referer: http://scrapy-chs.readthedocs.org/zh_CN/0.24/
        Cookie: _ga=GA1.2.1612165614.1415584110;
        Connection: keep-alive
        If-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMT
        Cache-Control: max-age=0
meta: 比较常用,在不同的请求之间传递数据使用的。字典dict型
        request_with_cookies = Request(url="http://www.example.com",
                                       cookies={currency: USD, country: UY},
                                       meta={dont_merge_cookies: True})
encoding: 使用默认的 utf-8 就行。
dont_filter: indicates that this request should not be filtered by the scheduler. 
             This is used when you want to perform an identical request multiple times, 
             to ignore the duplicates filter. Use it with care, or you will get into crawling loops. 
             Default to False.
errback: 指定错误处理函数

 

以上是关于scrapy中Request中常用参数的主要内容,如果未能解决你的问题,请参考以下文章

Scrapy数据建模-构造并发送请求(翻页实现)

scrapy之Request对象

NO.5 Scrapy爬虫框架中的 Request 和 Response 对象

scrapy主动退出爬虫的代码片段(python3)

scrapy按顺序启动多个爬虫代码片段(python3)

Python爬虫之Scrapy框架系列(16)——深入剖析request和response类