爬虫日记(67):Scrapy的XMLFeedSpider使用

Posted caimouse

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫日记(67):Scrapy的XMLFeedSpider使用相关的知识,希望对你有一定的参考价值。

在前面我们使用一般的方式来抓取过新闻,那是基于普通的urllib和beautifulsoup组件来实现的,需要写比较多的代码。由于RSS是一种标准格式,这样我们就可以使用标准类抽取网页内容,不需要从头开始写这些代码。

简易信息聚合(也叫聚合内容)是一种基于XML的标准,在互联网上被广泛采用的内容包装和投递协议。RSS(Really Simple Syndication)是一种描述和同步网站内容的格式,是使用最广泛的XML应用。RSS搭建了信息迅速传播的一个技术平台,使得每个人都成为潜在的信息提供者。发布一个RSS文件后,这个RSS Feed中包含的信息就能直接被其他站点调用,而且由于这些数据都是标准的XML格式,所以也能在其他的终端和服务中使用,是一种描述和同步网站内容的格式。

让我们看一个简单的 RSS 文档:

<?xml version="1.0" encoding="ISO-8859-1" ?>

<rss version="2.0">



<channel>

  <title>W3School Home Page</title>

  <link>http://www.w3school.com.cn</link>

  <description>Free web building tutorials</description>

  <item>

    <title>RSS Tutorial</title>

    <link>http://www.w3school.com

以上是关于爬虫日记(67):Scrapy的XMLFeedSpider使用的主要内容,如果未能解决你的问题,请参考以下文章

爬虫日记(73):Scrapy程序运行入口点分析

爬虫日记(75):Scrapy的Settings源码分析

爬虫日记(74):Scrapy项目配置参数源码分析(二)

爬虫日记(76):Scrapy的命令行源码分析二

爬虫日记(85):Scrapy的ExecutionEngine类

爬虫日记(76):Scrapy的命令行源码分析三