scrapy框架之crawl问题解决

Posted 2023-05-13

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了scrapy框架之crawl问题解决相关的知识，希望对你有一定的参考价值。

参考技术A scrapy是一个非常强大的爬虫框架,现在也是越来越多人用,安装也是很简单,由于我是在anaconda环境下装的,那我就来说明一下该环境的安装吧.
在anaconda安装是最简单不过了,直接conda install scrapy 就可以了,
基本操作命令我就不提了.
在用scrapy crawl 运行项目之后发现不能打印出我想要的结果,也在百度上找了许久,最后发现只需要在settinfs.py文件里将CONCURRENT_REQUESTS = 32的注释取消掉就可以了.

运行scrapy crawl （文件名）时显示invalid syntax和no modle 'win32api'解决方案

使用pycharm爬取知乎网站的时候，在terminal端输入scarpy crawl zhihu,提示语法错误，如下：

原因是python3.7中将async设为关键字,根据错误提示，找到manhole.py文件，将文件中async参数全部更改为其它名，比如async1。

这时候运行scarpy crawl zhihu，显示如下错误：

解决方案：

原因是缺少win32,到 http://sourceforge.net/projects/pywin32/files/

找到对应的版本进行下载，直接安装即可

以上是关于scrapy框架之crawl问题解决的主要内容，如果未能解决你的问题，请参考以下文章

运行scrapy crawl （文件名）时显示invalid syntax和no modle 'win32api'解决方案

Python网络爬虫之Scrapy框架（CrawlSpider）

Scrapy框架的执行流程解析

scrapy爬虫框架之理解篇（个人理解）

调度 scrapy 命令 scrapy crawl

Scrapy process.crawl() 将数据导出到 json