爬虫2 url管理器 url_manager.py

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫2 url管理器 url_manager.py相关的知识,希望对你有一定的参考价值。

#coding:utf8
class UrlManager(object):

    def __init__(self):
        self.new_urls = set()
        self.old_urls = set()

    def add_new_url(self, url):
        if url is None:
            return
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)


    def add_new_urls(self, urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def has_new_url(self):
        return len(self.new_urls) != 0


    def get_new_url(self):
        new_url = self.new_urls.pop()
        self.old_urls.add(new_url)
        return new_url

 

以上是关于爬虫2 url管理器 url_manager.py的主要内容,如果未能解决你的问题,请参考以下文章

爬虫学习——URL管理器和实现方法

简单爬虫学习记录

python——爬取图片(shutter图片网)

python爬虫模块理解

python爬虫模块之URL管理器

python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用b(