scrapy_基础

Posted 2020-11-27 hjnzs

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了scrapy_基础相关的知识，希望对你有一定的参考价值。

scrapy-1

一、简介

1.1、安装

pip install scrapy

1.2、爬虫流程

技术图片

1.3、scrapy流程，文字解释

首先通过spider(爬虫)组件构建request对象，并将request对象经由scrapy Engine(scrapy 引擎) 发送给Scheduler(调度器),调度器对request对象进行整理，安排。经过 下载中间件到达下载器，下载器请求网页，返回response对象，由scrapy Engine(scrapy 引擎) 发送给爬虫组件进行数据提取，将提取出的数据发送给 Item Pipeline 进行数据的处理或者分析。

下载中间件：

对request对象进行修改，比如可以在此处设置代理，添加cookies，对请求头进行修改。
封装响应，则该请求不会交由下载器，而是直接返回，比如使用selenium访问网页，再构建response对象直接返回。

爬虫中间件：功能类似于下载中间件，但下载中间件更加常用。

二、常用命令

2.1、创建项目

scrapy startproject baidu

技术图片

2.2、创建一个爬虫

scrapy genspider baidu_demo #爬虫名 www.baidu.com#限定域

技术图片

2.3、爬虫文件解释

# -*- coding: utf-8 -*-
import scrapy

class BaiduDemoSpider(scrapy.Spider):
    name = ‘baidu_demo‘  #爬虫名
    allowed_domains = [‘www.baidu.com‘]  #允许爬取的域名
    start_urls = [‘http://www.baidu.com/‘] #初始url

    def parse(self, response):   #对返回的响应进行解析
        pass

2.4、settting.py配置文件重要配置参数

#USER_AGENT = ‘baidu (+http://www.yourdomain.com)‘  #配置USER-AGENT

ROBOTSTXT_OBEY = False  #是否遵循robots协议

#CONCURRENT_REQUESTS = 32 #同一时间的发送请求数 默认16

#DOWNLOAD_DELAY = 3  #向同一个网站发送请求的间隔，默认0

#向同一个域名或者同一个ip同时发送的请求数，二选一。
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

#COOKIES_ENABLED = False   #是否保存cookies，默认保存


#DEFAULT_REQUEST_HEADERS = {
#  ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
#  ‘Accept-Language‘: ‘en‘,
#}   #默认请求头，按照需要更改。

#SPIDER_MIDDLEWARES = {
#    ‘baidu.middlewares.BaiduSpiderMiddleware‘: 543,
#}   #爬虫中间件是否可用，数字越小优先级越高。

# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    ‘baidu.middlewares.BaiduDownloaderMiddleware‘: 543,
#}  #下载中间件是否可用，数字越小优先级越高。


#ITEM_PIPELINES = {
#    ‘baidu.pipelines.BaiduPipeline‘: 300,
#}  #配置 ITEM_PIPELINES（处理解析后的数据），是否可用，数字越小优先级越高。

2.5、简单示例

# -*- coding: utf-8 -*-
import scrapy


class BaiduDemoSpider(scrapy.Spider):
    name = ‘baidu_demo‘
    allowed_domains = [‘www.baidu.com‘]
    start_urls = [‘http://www.baidu.com/‘]

    def parse(self, response):
        with open(‘../baidu.html‘, ‘w‘, encoding=‘utf-8‘) as file:
            file.write(response.text)

执行爬虫

scrapy runspider  baidu_demo(#爬虫名)  [可选参数]
可选参数
-a 设置该爬虫的参数 格式：name=value
-o 输出文件 常用文件类型:csv、json、xml、pickle
-logfile=file(指定日志文件)
--nolog 不输出日志
-L Level(日志等级，默认DEBUG)

以上是关于scrapy_基础的主要内容，如果未能解决你的问题，请参考以下文章