爬虫日记(68)：Scrapy的CSVFeedSpider使用

Posted 2021-05-19 caimouse

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫日记(68)：Scrapy的CSVFeedSpider使用相关的知识，希望对你有一定的参考价值。

在互联网上有很多信息是通过CSV文件格式来发布的，比如联合国的一些数据，当你需要从联合国的网站上寻找相关数据来分析时，就需要使用爬虫来抓取CSV文件，然后分析里面的数据。很多研究工作都是长期的过程，如果每次手动去下载，那么就比较麻烦，并且很难得到最新的数据，或者说最及时的数据。比如一个新闻工作者，想通过联合国上一些数据来报道一篇新闻，如果网站上刚发布，就得到数据的通知，并进行了分析，就可以立即写成新闻了。这个过程使用爬虫来做，就会比人工要快多了，首先不需要人工随时去查看网站，可以让程序自动化去查询。其次可以使用以前分析的方法再进行自动化处理，不需要人工再进行了。

另外一个大用处，就是企业与企业之间的数据共享了。比如A企业生产的设备，经常以CSV文件的方式发布在WEB服务器上，那么B企业就可以使用爬虫的方式来定时抓取CSV文件，把需要的相关信息整合到自己的数据库。

CSV （逗号分隔值文件格式）

逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；

以上是关于爬虫日记(68)：Scrapy的CSVFeedSpider使用的主要内容，如果未能解决你的问题，请参考以下文章

爬虫日记(73)：Scrapy程序运行入口点分析

爬虫日记(75)：Scrapy的Settings源码分析

爬虫日记(74)：Scrapy项目配置参数源码分析(二）

爬虫日记(76)：Scrapy的命令行源码分析二

爬虫日记(85)：Scrapy的ExecutionEngine类

爬虫日记(76)：Scrapy的命令行源码分析三