爬虫日记(68):Scrapy的CSVFeedSpider使用

Posted caimouse

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫日记(68):Scrapy的CSVFeedSpider使用相关的知识,希望对你有一定的参考价值。

在互联网上有很多信息是通过CSV文件格式来发布的,比如联合国的一些数据,当你需要从联合国的网站上寻找相关数据来分析时,就需要使用爬虫来抓取CSV文件,然后分析里面的数据。很多研究工作都是长期的过程,如果每次手动去下载,那么就比较麻烦,并且很难得到最新的数据,或者说最及时的数据。比如一个新闻工作者,想通过联合国上一些数据来报道一篇新闻,如果网站上刚发布,就得到数据的通知,并进行了分析,就可以立即写成新闻了。这个过程使用爬虫来做,就会比人工要快多了,首先不需要人工随时去查看网站,可以让程序自动化去查询。其次可以使用以前分析的方法再进行自动化处理,不需要人工再进行了。

 

另外一个大用处,就是企业与企业之间的数据共享了。比如A企业生产的设备,经常以CSV文件的方式发布在WEB服务器上,那么B企业就可以使用爬虫的方式来定时抓取CSV文件,把需要的相关信息整合到自己的数据库。

 

CSV (逗号分隔值文件格式)

逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;

以上是关于爬虫日记(68):Scrapy的CSVFeedSpider使用的主要内容,如果未能解决你的问题,请参考以下文章

爬虫日记(73):Scrapy程序运行入口点分析

爬虫日记(75):Scrapy的Settings源码分析

爬虫日记(74):Scrapy项目配置参数源码分析(二)

爬虫日记(76):Scrapy的命令行源码分析二

爬虫日记(85):Scrapy的ExecutionEngine类

爬虫日记(76):Scrapy的命令行源码分析三