无法使用scrapy抓取某些网站

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了无法使用scrapy抓取某些网站相关的知识,希望对你有一定的参考价值。

我过去2年一直在使用scrapy。现在有一些问题,我无法找出这是什么问题。我正在爬行大约80个站点。所有这些都被抓取,但大约有6个网站没有被抓取。我正在使用RandomProxy中间件,RotateUserAgent中间件和splash。

那么,你能帮我弄清楚那是什么问题。然后我会搜索解决方案。无法抓取的网站是:http://proza.ru/avtor/miliku

错误是:

link:http://proza.ru/avtor/miliku; message: Traceback (most recent call last): Failure: twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion.>]
答案

我不确定robot.txt政策是否会导致您的错误。但您可以尝试在settings.py中禁用“Obey robot.txt”规则:

ROBOTSTXT_OBEY =错误

禁用此功能可能会导致站点策略违规。所以要小心!

以上是关于无法使用scrapy抓取某些网站的主要内容,如果未能解决你的问题,请参考以下文章

使用 scrapy 抓取网站

使用Python Scrapy抓取网站并捕获不同的响应状态代码

我无法抓取数据

Nginx反爬虫: 禁止某些User Agent抓取网站

使用 python-Scrapy 抓取动态内容

Scrapy抓取360网站图片