scrapy 启动

Posted wuheng-123

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy 启动相关的知识,希望对你有一定的参考价值。

虚拟环境安装好了之后,scrapy 框架安装好了以后:

workon article_spider   (项目名称)

scrapy startproject  Article Spider 工程目录

cd 到 工程目录

Scrapy genspider jobbole blog.jobbole.com 第一个文件名称 要爬取网站的域名

 

技术分享图片

技术分享图片

启动一个工程的cmd: scrapy crawl jobbole 

如果 运行报 No module named “win32api”

要安装 pip install pypiwin32 这个包

settings

把 技术分享图片

这样设置,否则 遵循 robots.txt rules ,它将会不爬

 

如果 是 xpath selector 对象 想提取里面的内容,调用extract()成一个列表,然后索引取出,但是列表没有值,索引取出就会报错,所以

extract_first 提取不到就返回None。比较好

 

以上是关于scrapy 启动的主要内容,如果未能解决你的问题,请参考以下文章

启动scrapy shell时如何解决错误?

02Scrapy 安装目录结构及启动

scrapy 启动

Scrapy爬虫的暂停和启动

scrapy启动

在Scrapy中启动shell来调试