scrapy框架之crawl问题解决

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy框架之crawl问题解决相关的知识,希望对你有一定的参考价值。

参考技术A scrapy是一个非常强大的爬虫框架,现在也是越来越多人用,安装也是很简单,由于我是在anaconda环境下装的,那我就来说明一下该环境的安装吧.
在anaconda安装是最简单不过了,直接conda install scrapy 就可以了,
基本操作命令我就不提了.
在用scrapy crawl 运行项目之后发现不能打印出我想要的结果,也在百度上找了许久,最后发现只需要在settinfs.py文件里将CONCURRENT_REQUESTS = 32的注释取消掉就可以了.

运行scrapy crawl (文件名)时显示invalid syntax和no modle 'win32api'解决方案

 

使用pycharm爬取知乎网站的时候,在terminal端输入scarpy crawl zhihu,提示语法错误,如下:

 

 

原因是python3.7中将async设为关键字,根据错误提示,找到manhole.py文件,将文件中async参数全部更改为其它名,比如async1。

这时候运行scarpy crawl zhihu,显示如下错误:

 

 

解决方案:

原因是缺少win32,到 http://sourceforge.net/projects/pywin32/files/

找到对应的版本进行下载,直接安装即可

 

以上是关于scrapy框架之crawl问题解决的主要内容,如果未能解决你的问题,请参考以下文章

运行scrapy crawl (文件名)时显示invalid syntax和no modle 'win32api'解决方案

Python网络爬虫之Scrapy框架(CrawlSpider)

Scrapy框架的执行流程解析

scrapy爬虫框架之理解篇(个人理解)

调度 scrapy 命令 scrapy crawl

Scrapy process.crawl() 将数据导出到 json