Scrapy爬虫框架入门

Posted win0211

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Scrapy爬虫框架入门相关的知识,希望对你有一定的参考价值。

一、环境搭建

  Scrapy是一个比较好的爬虫框架,本次,我们学习一下,使用Scrapy框架来创建一个爬虫项目,并通过一个简单的例子演示一下。

第一步:安装依赖。首先先保证已经安装了python,pip。然后使用pip进行一下依赖的安装,顺序为:

1、wheel      2、  lxml     3、PyOpenssl      4、  Pywin32   5、scrapy

安装命令为:比如安装sheel:pip install sheel

当然,肯定没有那么容易就能安装成功了啦,由于版本不一致的原因,经常会导致我们安装第三方库的时候,失败,大致报错如下:

技术分享图片

出现这个问题的原因是,我们默认安装的第三方插件和python的版本不一致,因此我们需要自己去下一个正确的版本。

下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

搜索到我们需要的插件,然后存放到某个目录下,然后再运行pip install wheel?0.31.1?py2.py3?none?any.whl就可以了。

二、创建Scrapy项目

  创建scrapy项目的命令依次如下:

1、创建一个项目 scrapy statrproject myproject

2、切换到myproject目录下 cd myproject

3、创建爬虫文件 scrapy genspider scrapyname  www.baidu.com

4、运行项目 scrapy crawl myproject

创建完之后,项目的目录结构如下:

技术分享图片

三、实例演示

   现在我们需要抓取网站http://lab.scrapyd.cn的数据,只需要在spiders目录下编写我们的爬虫逻辑即可。

技术分享图片

这里面的name和star_urls其实就是我们在创建的时候爬虫文件的时候传递的值。scrapy genspider mingyan2  lab.scrapyd.cn

爬虫的逻辑代码如下:

技术分享图片
 1 import scrapy
 2 
 3 from mingyan.items import MingyanItem
 4 class mingyan(scrapy.Spider):  # 需要继承scrapy.Spider类
 5 
 6     name = "mingyan2"  # 定义蜘蛛名
 7     start_urls = [
 8         http://lab.scrapyd.cn,
 9 
10     ]
11 
12     def parse(self, response):
13         item = MingyanItem()
14         quotes = response.css(div.quote)
15         for quote in quotes:
16             item[text] = quote.css(.text::text).extract()[0]
17             item[author] = quote.css(.author::text).extract()[0]
18             item[tags] = quote.css(.tag::text).extract()
19             yield item
20         nextpage = response.css(li.next a::attr(href)).extract()[0]
21         if nextpage is not None:
22             yield scrapy.Request(nextpage,callback=self.parse)
View Code

如果我们想让抓取的数据以不同的格式存储时,只需要在命令行运行的时候增加-o参数即可,例如想要抓取的数据以json的格式存储,命令如下:

技术分享图片

生成的数据文件为json数组的形式:

技术分享图片


以上是关于Scrapy爬虫框架入门的主要内容,如果未能解决你的问题,请参考以下文章

十分钟入门爬虫框架scrapy

SCRAPY爬虫框架入门实例

Python爬虫从入门到放弃之 Scrapy框架的架构和原理

python爬虫入门Scrapy框架之CrawlSpider类

Python爬虫从入门到放弃之 Scrapy框架整体的一个了解

开源爬虫框架 Scrapy 快速入门