URL规范化器

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了URL规范化器相关的知识,希望对你有一定的参考价值。

  1. # A spider middleware to canonicalize the urls of all requests generated from a spider.
  2.  
  3. from scrapy.http import Request
  4. from scrapy.utils.url import canonicalize_url
  5.  
  6. class UrlCanonicalizerMiddleware(object):
  7. def process_spider_output(self, response, result, spider):
  8. for r in result:
  9. if isinstance(r, Request):
  10. curl = canonicalize_url(r.url)
  11. if curl != r.url:
  12. r = r.replace(url=curl)
  13. yield r
  14.  
  15. # Snippet imported from snippets.scrapy.org (which no longer works)
  16. # author: pablo
  17. # date : Sep 07, 2010
  18.  

以上是关于URL规范化器的主要内容,如果未能解决你的问题,请参考以下文章

规范化/规范化 URL?

规范化/规范化 URL?

ExpressJS 路由器规范化/规范 url

标准 URL 规范化 - Java

使用 javascript (Node.js) 规范化 URL

Python 中用于清理和规范化 URL 的函数