爬虫日记(64):Scrapy的设置参数-统计分析

Posted caimouse

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫日记(64):Scrapy的设置参数-统计分析相关的知识,希望对你有一定的参考价值。

在开发爬虫的过程中,经常需要分析爬虫的运行状态,以便进一步改进代码,或者提高效率。要想实现这一个目标,必须把爬虫运行的状态数据收集到,这样才能知道是网站里面数据太多了,还是代码效率不高,还是方法不对的情况。如果没有这样的统计分析数据,就无法进一步改进。幸运的是scrapy已经提供了这样一个统计类StatsCollector,它是默认就会收集到所有信息,无论你是否启用STATS_DUMP的设置值,也就是说无论你设置为True,还是False,这个类都会收集数据,这个参数只是判断是否在关闭蜘蛛类时打印输出这些统计数据。

class StatsCollector(object):

 

    def __init__(self, crawler):

        self._dump = crawler.settings.getbool(\'STATS_DUMP\')

        self._stats = {}

 

    ......

以上是关于爬虫日记(64):Scrapy的设置参数-统计分析的主要内容,如果未能解决你的问题,请参考以下文章

爬虫日记(76):Scrapy的命令行源码分析

爬虫日记(74):Scrapy项目配置参数源码分析(二)

爬虫日记(74):Scrapy项目配置参数源码分析

爬虫日记(65):Scrapy的设置参数-Telnet

爬虫日记(86):Scrapy的Scheduler类

爬虫日记(75):Scrapy的Settings源码分析