爬虫日记(68):Scrapy的CSVFeedSpider使用
Posted caimouse
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫日记(68):Scrapy的CSVFeedSpider使用相关的知识,希望对你有一定的参考价值。
在互联网上有很多信息是通过CSV文件格式来发布的,比如联合国的一些数据,当你需要从联合国的网站上寻找相关数据来分析时,就需要使用爬虫来抓取CSV文件,然后分析里面的数据。很多研究工作都是长期的过程,如果每次手动去下载,那么就比较麻烦,并且很难得到最新的数据,或者说最及时的数据。比如一个新闻工作者,想通过联合国上一些数据来报道一篇新闻,如果网站上刚发布,就得到数据的通知,并进行了分析,就可以立即写成新闻了。这个过程使用爬虫来做,就会比人工要快多了,首先不需要人工随时去查看网站,可以让程序自动化去查询。其次可以使用以前分析的方法再进行自动化处理,不需要人工再进行了。
另外一个大用处,就是企业与企业之间的数据共享了。比如A企业生产的设备,经常以CSV文件的方式发布在WEB服务器上,那么B企业就可以使用爬虫的方式来定时抓取CSV文件,把需要的相关信息整合到自己的数据库。
CSV (逗号分隔值文件格式)
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;
以上是关于爬虫日记(68):Scrapy的CSVFeedSpider使用的主要内容,如果未能解决你的问题,请参考以下文章