scrapy工程创建及pycharm运行
Posted 小明在线
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy工程创建及pycharm运行相关的知识,希望对你有一定的参考价值。
1.通过命令行创建scrapy工程项目
scrapy startproject (工程名)
scrapy startproject myxml
2.利用爬虫模板设置爬虫文件
在这个过程中我们可以先利用 scrapy genspider -l(小写的L)命令查看当前的爬虫模板
如:scrapy genspider -t 模板名 爬虫文件名 允许的域名
scrapy genspider -t xmlfeed myxmlspider sina.com.cn
注释:
scrapy genspider -l 查看当前可以使用的爬虫模板
scrapy genspider -t 创建爬虫文件
3.将scrapy工程项目导入到pycharm中
4.编写Item文件(items.py),定义需要关注的数据
import scrapy class ..(scrapy.Item): name = scrapy.Field() email = scrapy.Field() ...
5.编写爬虫文件(如上面的myxmlspider.py)
6.编辑scrapy在pycharm的运行环境
在Run中选择Edit Configuration
点击"+"创建一个"Python"
相关配置如下:
以上是关于scrapy工程创建及pycharm运行的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序