开源爬虫框架 Scrapy 快速入门

Posted HelloGitHub

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了开源爬虫框架 Scrapy 快速入门相关的知识,希望对你有一定的参考价值。

作者:wedo 实验君
来源:Python 中文社区

一、Scrapy 简介

Scrapy 是基于事件驱动的 Twisted 框架下用纯 Python 写的爬虫框架。它可以用来爬取网络上的图片和文本信息,读完本文包你会用。

1.1 Scrapy 框架

Scrapy ‍‍‍‍框架包括 5 个主要的组件和 2 个中间件 Hook。
  • ENGIINE:整个框架的控制中心, 控制整个爬虫的流程。根据不同的条件添加不同的事件(就是用的 Twisted)
  • SCHEDULER:事件调度器
  • DOWNLOADER:接收爬虫请求,从网上下载数据
  • SPIDERS:发起爬虫请求,并解析  DOWNLOADER  返回的网页内容,同时和数据持久化进行交互, 需要开发者编写
  • ITEM PIPELINES:接收  SPIDERS  解析的结构化的字段,进行持久化等操作, 需要开发者编写
  • MIDDLEWARES: ENGIINE  和  SPIDERS ENGIINE  和  DOWNLOADER  之间一些额外的操作,hook 的方式提供给开发者
从上可知,我们只要实现  SPIDERS (要爬什么网站,怎么解析)和  ITEM PIPELINES (如何处理解析后的内容)就可以了。其他的都是有框架帮你完成了。
开源爬虫框架 Scrapy 快速入门

1.2 Scrapy 数据流

我们再详细看下组件之间的数据流,会更清楚框架的内部运作。
开源爬虫框架 Scrapy 快速入门

    1、 SPIDERS  发爬虫请求给  ENGIINE , 告诉它任务来了
    2、 ENGIINE  将请求添加到  SCHEDULER  调度队列里,说任务就交给你了,给我安排好
    3、 SCHEDULER  看看手里的爬取请求很多,挑一个给  ENGIINE , 说大哥帮忙转发给下载  DOWNLOADER
    4、 ENGIINE :好的, DOWNLOADER  你的任务来了
    5、 DOWNLOADER :开始下载了,下载好了。任务结果交给  ENGIINE
    6、 ENGIINE  将结果给  SPIDERS, 你的一个请求下载好了,快去解析吧
    7、 SPIDERS :好的,解析产生了结果字段。又给  SPIDERS  转发给  ITEM PIPELINES
    8、 ITEM PIPELINES: 接收到字段内容,保存起来。
第 1 步到第 8 步,一个请求终于完成了。是不是觉得很多余? ENGIINE  夹在中间当传话筒,能不能直接跳过?可以考虑跳过了会怎么样。
这里分析一下
  • SCHEDULER  的作用:任务调度, 控制任务的并发,防止机器处理不过来
  • ENGIINE :就是基于  Twisted  框架, 当事件来(比如转发请求)的时候,通过回调的方式来执行对应的事件。 ENGIINE  让所有操作变的统一,都是按照事件的方式来组织其他组件, 其他组件以低耦合的方式运作;对于一种框架来说,无疑是必备的。

二、基础:XPath

写爬虫最重要的是解析网页的内容,这个部分就介绍下通过  XPath  来解析网页,提取内容。

2.1 html 节点和属性

2.2 解析语法

  • a / b:‘/’ 在  xpath 里表示层级关系,左边的 a 是父节点,右边的 b 是子节点
  • a // b:表示 a 下所有 b,直接或者间接的
  • [@]:选择具有某个属性的节点
    • //div[@classs], //a[@x]:选择具有 class 属性的 div 节点、选择具有 x属性的 a 节点
    • //div[@class="container"]:选择具有 class 属性的值为 container 的  div 节点
  • //a[contains(@id, "abc")]:选择 id 属性里有 abc 的 a 标签
一个例子
 
   
   
 
response.xpath('//div[@class="taglist"]/ul//li//a//img/@data-original').get_all()
# 获取所有class属性(css)为taglist的div, 下一个层ul下的所有li下所有a下所有img标签下data-original属性

# data-original这里放的是图片的url地址

三、安装部署

Scrapy 是用纯 Python 编写的,它依赖于几个关键的 Python 包(以及其他包):
  • lxml:一个高效的 XML 和 HTML 解析器
  • parsel:一个写在 lxml 上面的 html/xml 数据提取库
  • w3lib:用于处理 URL 和网页编码的多用途帮助程序
  • twisted:异步网络框架
  • cryptography 和 pyOpenSSL:处理各种网络级安全需求
 
   
   
 
# 安装
pip install scrapy

四、创建爬虫项目

 
   
   
 
scrapy startproject sexy

#
 创建一个后的项目目录
# sexy
# │  scrapy.cfg
# │
# └─sexy
#     │  items.py
#     │  middlewares.py
#     │  pipelines.py
#     │  settings.py
#     │  __init__.py
#     │
#     ├─spiders
#     │  │  __init__.py
#     │  │
#     │  └─__pycache__
#     └─__pycache__

#
 执行 需要到scrapy.cfg同级别的目录执行
scrapy crawl sexy
从上可知,我们要写的是  spiders  里的具体的 spider 类和  items.py 和 pipelines.py (对应的  ITEM PIPELINES

五、开始 Scrapy 爬虫

5.1 简单而强大的 spider

这里实现的功能是从图片网站中下载图片,保存在本地, url 做了脱敏。需要注意的点在注释要标明
  • 类要继承 scrapy.Spider
  • 取一个唯一的 name
  • 爬取的网站 url 加到 start_urls 列表里
  • 重写  parse  利用 xpath 解析 reponse 的内容
可以看到  parse  实现的时候没有转发给  ITEM PIPELINES ,直接处理了。这样简单的可以这么处理,如果业务很复杂,建议交给  ITEM PIPELINES
 
   
   
 
# 目录结果为:spiders/sexy_spider.py
import scrapy
import os
import requests
import time


def download_from_url(url):
    response = requests.get(url, stream=True)
    if response.status_code == requests.codes.ok:
        return response.content
    else:
        print('%s-%s' % (url, response.status_code))
        return None


class SexySpider(scrapy.Spider):
   # 如果有多个spider, name要唯一
    name = 'sexy'
    allowed_domains = ['uumdfdfnt.94demo.com']
    allowed_urls = ['http://uumdfdfnt.94demo.com/']

    # 需要爬取的网站url加到start_urls list里
    start_urls = ['http://uumdfdfnt.94demo.com/tag/dingziku/index.html']
    save_path = '/home/sexy/dingziku'

    def parse(self, response):
        # 解析网站,获取图片列表
        img_list = response.xpath('//div[@class="taglist"]/ul//li//a//img/@data-original').getall()
        time.sleep(1)

        # 处理图片, 具体业务操作, 可交给items, 见5.2 items例子
        for img_url in img_list:
            file_name = img_url.split('/')[-1]
            content = download_from_url(img_url)
            if content is not None:
                with open(os.path.join(self.save_path, file_name), 'wb'as fw:
                    fw.write(content)

        # 自动下一页(见5.3 自动下一页)
        next_page = response.xpath('//div[@class="page both"]/ul/a[text()="下一页"]/@href').get()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

5.2 items 和 pipline 例子

这里说明下两个的作用
  • items:提供一个字段存储, spider 会将数据存在这里
  • pipline:会从 items 取数据,进行业务操作,比如 5.1 中的保存图片;又比如存储到数据库中等
我们来改写下上面的例子
  • items.py 其实就是定义字段  scrapy.Field()
 
   
   
 
import scrapy
class SexyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    img_url = scrapy.Field()
  • spiders/sexy_spider.py
 
   
   
 
import scrapy
import os
# 导入item
from ..items import SexyItem

class SexySpider(scrapy.Spider):
   # 如果有多个spider, name要唯一
    name = 'sexy'
    allowed_domains = ['uumdfdfnt.94demo.com']
    allowed_urls = ['http://uumdfdfnt.94demo.com/']

    # 需要爬取的网站url加到start_urls list里
    start_urls = ['http://uumdfdfnt.94demo.com/tag/dingziku/index.html']
    save_path = '/home/sexy/dingziku'

    def parse(self, response):
        # 解析网站,获取图片列表
        img_list = response.xpath('//div[@class="taglist"]/ul//li//a//img/@data-original').getall()
        time.sleep(1)

        # 处理图片, 具体业务操作, 可交给yield items
        for img_url in img_list:
            items = SexyItem()
            items['img_url'] = img_url
            yield items
  • pipelines.py
 
   
   
 
import os
import requests


def download_from_url(url):
    response = requests.get(url, stream=True)
    if response.status_code == requests.codes.ok:
        return response.content
    else:
        print('%s-%s' % (url, response.status_code))
        return None


class SexyPipeline(object):

    def __init__(self):
        self.save_path = '/tmp'

    def process_item(self, item, spider):
        if spider.name == 'sexy':
            # 取出item里内容
            img_url = item['img_url']
            
            # 业务处理
            file_name = img_url.split('/')[-1]
            content = download_from_url(img_url)
            if content is not None:
                with open(os.path.join(self.save_path, file_name), 'wb'as fw:
                    fw.write(content)
        return item
  • 重要的配置要开启在  settings.py  中开启 piplines 类,数值表示优先级
 
   
   
 
ITEM_PIPELINES = {
   'sexy.pipelines.SexyPipeline'300,
}

5.3 自动下一页

有时候我们不仅要爬取请求页面中的内容,还要递归式的爬取里面的超链接 url,特别是下一页这种,解析内容和当前页面相同的情况下。一种笨方法是手动加到  start_urls  里。大家都是聪明人来试试这个。
  • 先在页面解析下下一页的url
  • scrapy.Request(next_page, callback=self.parse)  发起一个请求,并调用 parse 来解析,当然你可以用其他的解析
完美了,完整例子见  5.1
 
   
   
 
next_page = response.xpath('//div[@class="page both"]/ul/a[text()="下一页"]/@href').get()
if next_page is not None:
   next_page = response.urljoin(next_page)
   yield scrapy.Request(next_page, callback=self.parse)

5.4 中间件

  • 下载中间件 中间件的作用是提供一些常用的钩子 Hook 来增加额外的操作。中间件的操作是在  middlewares.py 。可以看到主要是处理请求  process_request ,响应  process_response  和异常  process_exceptio n 三个钩子函数。
  • 处理请求  process_request : 传给  DOWNLOADER  之前做的操作
  • 响应  process_response DOWNLOADER  给  ENGIINE  响应之前的操作
这里举一个添加模拟浏览器请求的方式,防止爬虫被封锁。重写  process_request
 
   
   
 
from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware
import random
agents = ['Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;',
              'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv,2.0.1) Gecko/20100101 Firefox/4.0.1',
              'Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11',
              'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
              'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)']

class RandomUserAgent(UserAgentMiddleware):
    def process_request(self, request, spider):
        ua = random.choice(agents)
        request.headers.setdefault('User-agent',ua,)
统一要在  settings.py  中开启下载中间件,数值表示优先级
 
   
   
 
DOWNLOADER_MIDDLEWARES = {
    'sexy.middlewares.customUserAgent.RandomUserAgent'20,
}

5.5 可用配置 settings.py

除了上面提供的 pipline 配置开启和中间件配置外,下面介绍几个常用的配置
  • 爬虫机器人规则:ROBOTSTXT_OBEY = False, 如果要爬取的网站有设置 robots.txt,最好设置为 False
  • CONCURRENT_REQUESTS:并发请求
  • DOWNLOAD_DELAY:下载延迟,可以适当配置,避免把网站也爬挂了。
所有的配置详见
https://doc.scrapy.org/en/latest/topics/settings.html

六、总结

相信从上面的介绍,你已经可以动手写一个你自己的爬虫了。总结如下:
  • scrapy 是基于事件驱动Twisted框架的爬虫框架。 ENGIINE  是核心,负责串起其他组件
  • 开发只要编写 spider 和 item pipline 和中间件、download 和 schedule 交给框架
  • scrapy crawl 你的爬虫 name,name 要唯一
  • 爬取的 url 放在 start_urls,spider 会自动 Request 的,parse 来解析
  • pipline 和中间件要记得在 settings 中开启
  • 关注下 settings 的常用配置,需要时看下文档
- END -