Python爬虫编程思想（153）：使用Scrapy抓取数据，抓取多个Url

Posted 2022-12-02 蒙娜丽宁

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫编程思想（153）：使用Scrapy抓取数据，抓取多个Url相关的知识，希望对你有一定的参考价值。

在前面的案例中都是只抓取了一个Url对应的页面，但在实际应用中，通常需要抓取多个Url，在爬虫类的start_urls变量中添加多个Url，运行爬虫时就会抓取start_urls变量中所有的Url。下面的代码在start_urls变量中添加了2个Url，运行MultiUrlSpider爬虫后，就会抓取这两个Url对应的页面。

class MultiUrlSpider(scrapy.Spider):
    name = \'MultiUrlSpider\'
    start_urls = [
       \'https://www.jd.com\',
       \'https://www.taobao.com\'        
    ]    
    ... ...

下面的例子通过一个文本文件（urls.txt）提供多个Url，并在爬虫类中读取urls.txt文件中的内容，然后将读取的多个Url存入start_urls变量中。最后会抓取urls.txt文件中所有的Url对应的页面，并输出页面的博文数（本例提供的Url是geekori.com的博文列表页面，如果读者使用其他的Url，需要修改分析页面的逻辑代码）。

import scrapy
class MultiUrlSpider(scrapy.Spider):
    name = \'Mult

以上是关于Python爬虫编程思想（153）：使用Scrapy抓取数据，抓取多个Url的主要内容，如果未能解决你的问题，请参考以下文章