爬虫日记(64)：Scrapy的设置参数-统计分析

Posted 2021-05-19 caimouse

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫日记(64)：Scrapy的设置参数-统计分析相关的知识，希望对你有一定的参考价值。

在开发爬虫的过程中，经常需要分析爬虫的运行状态，以便进一步改进代码，或者提高效率。要想实现这一个目标，必须把爬虫运行的状态数据收集到，这样才能知道是网站里面数据太多了，还是代码效率不高，还是方法不对的情况。如果没有这样的统计分析数据，就无法进一步改进。幸运的是scrapy已经提供了这样一个统计类StatsCollector，它是默认就会收集到所有信息，无论你是否启用STATS_DUMP的设置值，也就是说无论你设置为True，还是False，这个类都会收集数据，这个参数只是判断是否在关闭蜘蛛类时打印输出这些统计数据。

class StatsCollector(object):

def __init__(self, crawler):

self._dump = crawler.settings.getbool(\'STATS_DUMP\')

self._stats = {}

......

以上是关于爬虫日记(64)：Scrapy的设置参数-统计分析的主要内容，如果未能解决你的问题，请参考以下文章

爬虫日记(76)：Scrapy的命令行源码分析

爬虫日记(74)：Scrapy项目配置参数源码分析(二）

爬虫日记(74)：Scrapy项目配置参数源码分析

爬虫日记(65)：Scrapy的设置参数-Telnet

爬虫日记(86)：Scrapy的Scheduler类

爬虫日记(75)：Scrapy的Settings源码分析