Python爬虫编程思想(153):使用Scrapy抓取数据,抓取多个Url
Posted 蒙娜丽宁
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫编程思想(153):使用Scrapy抓取数据,抓取多个Url相关的知识,希望对你有一定的参考价值。
在前面的案例中都是只抓取了一个Url对应的页面,但在实际应用中,通常需要抓取多个Url,在爬虫类的start_urls变量中添加多个Url,运行爬虫时就会抓取start_urls变量中所有的Url。下面的代码在start_urls变量中添加了2个Url,运行MultiUrlSpider爬虫后,就会抓取这两个Url对应的页面。
class MultiUrlSpider(scrapy.Spider):
name = \'MultiUrlSpider\'
start_urls = [
\'https://www.jd.com\',
\'https://www.taobao.com\'
]
... ...
下面的例子通过一个文本文件(urls.txt)提供多个Url,并在爬虫类中读取urls.txt文件中的内容,然后将读取的多个Url存入start_urls变量中。最后会抓取urls.txt文件中所有的Url对应的页面,并输出页面的博文数(本例提供的Url是geekori.com的博文列表页面,如果读者使用其他的Url,需要修改分析页面的逻辑代码)。
import scrapy
class MultiUrlSpider(scrapy.Spider):
name = \'Mult
以上是关于Python爬虫编程思想(153):使用Scrapy抓取数据,抓取多个Url的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫编程思想(153):使用Scrapy抓取数据,抓取多个Url
Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序
Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序
Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序