[爬虫框架scrapy]爬虫文件的创建

Posted liangritian

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[爬虫框架scrapy]爬虫文件的创建相关的知识,希望对你有一定的参考价值。

新建爬虫项目非常有必要,虽然可以自己手动创建但还是最好用官方推荐的方法来新建爬虫

  1. 终端输入scrapy -h查看scrapy 命令的用法
  2. 技术图片
  3. 输入scrapy startproject Youspider 新建一个爬虫
  4. 技术图片
  5. 可以看到下一步该干嘛scrapy 都帮你提示好了
  6. 终端输入cd Youspider
  7. 在这目录下创建爬虫文件,注意爬虫名不可与爬虫项目同名且该名字是唯一的
  8. 终端输入scrapy genspider youspider www.baidu.com
  9. 创建成功,youspider为爬虫名字,www.baidu.com为要爬取网站的域名

技术图片

用pycharm可以看到爬虫文件如上

  1. youspider为爬虫文件,我们大部分时间都会编辑这个文件
  2. items为定义结构化数据,我们定义要爬取的字段
  3. middlewares为中间件,我们一般会在这里修改请求头,代理ip,cookie等
  4. pipelines为管道文件,爬虫会返回要爬取的数据,交给管道处理要爬取的数据
  5. setting为配置文件,控制爬虫线程数,爬取速度,定义全局请求头,开启中间件,开启管道,开启扩展等
  6. scrapy.cfg这个在部署爬虫时会用到

以上是关于[爬虫框架scrapy]爬虫文件的创建的主要内容,如果未能解决你的问题,请参考以下文章

爬虫2.1-scrapy框架-两种爬虫对比

Python爬虫 ---scrapy框架初探及实战

应用scrapy爬虫框架

爬虫框架 Scrapy 使用

scrapy爬虫框架-CrawlSpider

Python爬虫教程-31-创建 Scrapy 爬虫框架项目