scrapy 爬网站 显示 Filtered offsite request to 错误

Posted 笑面浮屠

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy 爬网站 显示 Filtered offsite request to 错误相关的知识,希望对你有一定的参考价值。

传送门:http://blog.csdn.net/feifly329/article/details/49702063

爬取网站图片时,无法抓取.

在 setting.py 文件中 设置 日志 记录等级

LOG_LEVEL= ‘DEBUG‘

LOG_FILE =‘log.txt‘

查看日志 发现报

2017-08-26 15:00:45 [scrapy] DEBUG: Filtered offsite request to ‘movie.mtime.com‘: <GET http://movie.mtime.com/12231/posters_and_images/>

这条日志记录有点奇怪 果断上网百度 ,找到答案

官方对这个的解释,是你要request的地址和allow_domain里面的冲突(我的allow_domains=["http://www.mtime.com"]),从而被过滤掉。可以停用过滤功能。

yield Request(url, callback=self.parse_item, dont_filter=True)

以上是关于scrapy 爬网站 显示 Filtered offsite request to 错误的主要内容,如果未能解决你的问题,请参考以下文章

Scrapy爬虫爬取B站视频标题及链接

scrapy通用爬虫及反爬技巧

一个Scrapy项目实现同时爬取不同的网站,网站内不同的站点

python 使用scrapy框架爬取一个图书网站的信息

scrapy redis中在爬取分页网站怎么重启爬虫之后在下一页继续爬

中国农产品信息网站scrapy-redis分布式爬取数据